网站首页 > 基础教程 正文
图/文:迷神
我们做python爬虫,通过requests抓取到内容就需要正则匹配,或者其他解析库解析内容。很多可能和我一样的人,都使用jquery的,那用的还是非常爽的。而pyquery库就是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都不错。
虽然,Beautiful Soup 中可以使用 CSS 选择器,但是好像他的 CSS 选择器并没有想像中的强大,PyQuery反而更优一些,因此,我们来说说,Python爬虫神器:PyQuery。
PyQuery库官方文档
官方文档:https://pyquery.readthedocs.io/en/latest/
PyPI:https://pypi.org/project/pyquery/
Github:https://github.com/gawel/pyquery
1、PyQuery初始化内容
PyQuery初始化有3种形式:
1.1、直接初始化requests返回的html内容
from pyquery import PyQuery as pq
#初始化为PyQuery对象
doc = pq(html)
print(type(doc))
print(doc)
1.2、直接读取文件的形式
#filename参数为html文件路径
doc = pq(filename = 'test.html')
print(type(doc))
print(doc)
1.3、读取网址的形式
doc = pq(url = 'https://www.toutiao.com')
print(type(doc))
print(doc)
2、常用CSS选择器:
pyquery强大的地方,就是在于使用了类似jquery一样的选择,进行网页节点解析。
html = """
<ul id="container">
<li class="object-1">Python</li>
<li class="object-2">大法</li>
<li id="object-1">好</li>
</ul>
"""
获取id为object-1的标签
print(doc('#object-1'))
#返回:
<li id="object-1">好</li>
#还可以:
print(doc('#container #object-1'))
获取class为object-1的标签
print(doc('.object-1'))
#返回:
<li class="object-1">Python</li>
获取ul标签:
print(doc('ul'))
#返回
<ul id="container">
<li class="object-1">Python</li>
<li class="object-2">大法</li>
<li id="object-1">好</li>
</ul>
如果获取多个li,可以遍历:
a = doc('li')
for item in a.items():
print(item)
其他的我们还可以查找节点
我们接着介绍一下常用的查找函数,这些查找函数最赞的地方就是它们和 JQuery 的用法完全一致。
find() : 查找节点的所有子孙节点。
children() : 只查找子节点。
parent() : 查找父节点。
parents() : 查找祖先节点。
siblings() : 查找兄弟节点。
3、获取标签的信息
我们在定位到目标之后,就需要获取标签的内容信息,常用的有:
3.1、attr() 获取属性,返回属性值
object_2 = doc.find('.object-2')
print(object_2.attr('class'))
#返回
object-2
3.2、text() 标签的文本
object_1 = docs.find('.object-1')
print(object_1.text())
#返回
Python
当然pyquery还有很多,比如remove去掉节点内容,获取url网址的,还可以自定义cookie和header等。
Beautiful Soup 对新手比较友好,pyquery对用过jquery的来说,更简单更方便,是一个非常不错的选择。
好了,就这么多啦,我是迷神,更多精彩python内容,可以关注我哦,有问题也可以评论哦。
猜你喜欢
- 2024-12-19 手把手教你用python抢京东大额神券
- 2024-12-19 SpringCloud系列——SSO 单点登录
- 2024-12-19 学习Java半年时间可以到哪种程度 学java半年能找到工作吗
- 2024-12-19 前端工程师都会遇到的nodejs常见问题和解决方案复盘
- 2024-12-19 Java后端学习路线梳理 java后端要掌握的知识
- 2024-12-19 真正的0基础如何学JAVA 零基础学java从哪里开始
- 2024-12-19 新必应用python写一个京东抢茅台的脚本,太实用了
- 2024-12-19 知了堂Java培训怎么样,都学习哪些内容
- 2024-12-19 Python爬虫大佬的万字长文总结,requests与selenium操作合集
- 2024-12-19 究竟是多深的功力!能一举拿下字节/腾讯/蚂蚁三大厂的前端offer
- 最近发表
- 标签列表
-
- gitpush (61)
- pythonif (68)
- location.href (57)
- tail-f (57)
- pythonifelse (59)
- deletesql (62)
- c++模板 (62)
- css3动画 (57)
- c#event (59)
- linuxgzip (68)
- 字符串连接 (73)
- nginx配置文件详解 (61)
- html标签 (69)
- c++初始化列表 (64)
- exec命令 (59)
- canvasfilltext (58)
- mysqlinnodbmyisam区别 (63)
- arraylistadd (66)
- node教程 (59)
- console.table (62)
- c++time_t (58)
- phpcookie (58)
- mysqldatesub函数 (63)
- window10java环境变量设置 (66)
- c++虚函数和纯虚函数的区别 (66)