网站首页 > 基础教程 正文
是什么?
数据解析的常用方法
- re
- XPath ( pip install lxml )
- BeautifulSoup ( pip install beautifulsoup4 )
- PyQuery ( pip install pyquery )
为什么?
- 翁曰:“无他,但手熟尔。”
怎么办?
- re
- re需要熟悉正则表达式, 可去菜鸟教程熟悉下, 正则匹配对象取文本方法.group()
- 重点区分一些 匹配模式 贪婪模式 和 非贪婪模式, 忽略 \n 字符等
- . 匹配除了换行 \n 之外的所有字符
- * 匹配0次或多次, + 匹配1次或多次
- ? 匹配0次或1次, 加了它就表示非贪婪模式
- 常用方法: re.findall(html) re.finditer(html) re.search(html) match(html)等
- group命名: ‘<div (?P<group1>.*?)>(?P<group2>.*?)</div>‘
- BeautifulSoup
- 主要是熟悉它的一些 对象 , 有 官方文档 可查, 对象取文本方法为.get_text().
- BeautifulSoup: soup = BeautifulSoup(‘<div class="boldest"><span>Extemely bold</span></div>‘, ‘html.parser’), 该对象中查找数据方法为 soup.find(标签, 属性=值[attrs={属性: 值}]), soup.find_all(标签, 属性=值)
- select选择器, 该对象中查找数据方法为 soup.select(‘#id’[‘.className’]), soup.select_one(…), 测试发现css在叠加类时失效.
- tag: 操作方法如同字典数据类型, 上面的 soup.div soup.span 就是一个tag对象, 它有个重要属性 .atrrs, 返回值也是个字典对象, eg: { u’class’: [u’boldest’] }
- XPath
- 主要是学习XPath的一些语法, 理解 节点 概念
- / 从根节点匹配
- // 从任意节点匹配
- @ 选取属性
- text() 函数文本定位, eg: xpath(‘.//td[@class=”span2”]/strong/text()’)
- XPath 和 BeautifulSoup补充
- XPath属于单一精准定位, 它只处理定义的当前节点, 如何当前节点还有 子节点 , 它不作处理; 而BeautifulSoup对象会处理选取到的节点及其子节点 ;
- XPath选取多个class的用法: 推荐写法:xpath( 'div[contains(@class, "className1") and contains(@class, "className2")]') ; 一般写法:xpath('div[@class="className1 className2"]')
- BeautifulSoup选取多个类:soup.select('.className1.className2')
Code
import re
from lxml import etree
from bs4 import BeautifulSoup
html = '''
<div class="download shadow">
<img src="https://pipi/download.png" alt=""/>
<p class='hi'>扫码下载今日头条</p>
<p>今日头条</p>
</div>
'''
# re
pattern = re.compile(r'\w')
res = pattern.findall(html) # 亦可直接调用 re.findall(r'\w', html)
# BeautifulSoup 对html注释欠缺处理
soup = BeautifulSoup(html, 'lxml')
res = soup.div.find('p').get_text()
res = soup.select_one('.hi').get_text() # soup.select_one('div p').get_text()
# XPath
tree = etree.HTML(html)
texts = tree.xpath('//p/text()') # xpath 取出的值是列表类型
# PyQuery
# re BeautifulSoup xpath 已经能处理大部分解析问题了, PyQuery 按需去学习用法, 为加快学习进度, 不再记录.
猜你喜欢
- 2024-10-19 程序员学习过程的几个困惑? 程序员的困难
- 2024-10-19 学法减分,分享几个简单试用的学习和搜题工具
- 2024-10-19 简单的Shell脚本实战演练,测试菜鸟也可以轻松学会
- 2024-10-19 学法减分快速搜题,分享几个简单试用的学习和搜题工具
- 2024-10-19 Python爬虫要如何学习,才能快速入门
- 2024-10-19 Apache的ProxyPass简单使用 apache pro
- 2024-10-19 去面试Python工程师,这几个基础问题一定要能回答
- 2024-10-19 学法减分拍照搜题快速通过,分享几个简单试用的学习和搜题工具
- 2024-10-19 数据太乱,整理太头疼?试试这个网站,AI 帮你轻松搞定!
- 2024-10-19 Python正则表达式的7个使用典范! 正则表达 python
- 最近发表
- 标签列表
-
- gitpush (61)
- pythonif (68)
- location.href (57)
- tail-f (57)
- pythonifelse (59)
- deletesql (62)
- c++模板 (62)
- css3动画 (57)
- c#event (59)
- linuxgzip (68)
- 字符串连接 (73)
- nginx配置文件详解 (61)
- html标签 (69)
- c++初始化列表 (64)
- exec命令 (59)
- canvasfilltext (58)
- mysqlinnodbmyisam区别 (63)
- arraylistadd (66)
- node教程 (59)
- console.table (62)
- c++time_t (58)
- phpcookie (58)
- mysqldatesub函数 (63)
- window10java环境变量设置 (66)
- c++虚函数和纯虚函数的区别 (66)