专业编程基础技术教程

网站首页 > 基础教程 正文

Python爬虫系列——Day004 python爬虫大全

ccvgpt 2024-10-19 03:22:04 基础教程 77 ℃

是什么?

数据解析的常用方法

  • re
  • XPath ( pip install lxml )
  • BeautifulSoup ( pip install beautifulsoup4 )
  • PyQuery ( pip install pyquery )

为什么?

  • 翁曰:“无他,但手熟尔。”

怎么办?

  • re
  1. re需要熟悉正则表达式, 可去菜鸟教程熟悉下, 正则匹配对象取文本方法.group()
  2. 重点区分一些 匹配模式 贪婪模式非贪婪模式, 忽略 \n 字符等
  3. . 匹配除了换行 \n 之外的所有字符
  4. * 匹配0次或多次, + 匹配1次或多次
  5. ? 匹配0次或1次, 加了它就表示非贪婪模式
  6. 常用方法: re.findall(html) re.finditer(html) re.search(html) match(html)等
  7. group命名: ‘<div (?P<group1>.*?)>(?P<group2>.*?)</div>‘
  • BeautifulSoup
  1. 主要是熟悉它的一些 对象 , 有 官方文档 可查, 对象取文本方法为.get_text().
  2. BeautifulSoup: soup = BeautifulSoup(‘<div class="boldest"><span>Extemely bold</span></div>‘, ‘html.parser’), 该对象中查找数据方法为 soup.find(标签, 属性=值[attrs={属性: 值}]), soup.find_all(标签, 属性=值)
  3. select选择器, 该对象中查找数据方法为 soup.select(‘#id’[‘.className’]), soup.select_one(…), 测试发现css在叠加类时失效.
  4. tag: 操作方法如同字典数据类型, 上面的 soup.div soup.span 就是一个tag对象, 它有个重要属性 .atrrs, 返回值也是个字典对象, eg: { u’class’: [u’boldest’] }
  • XPath
  1. 主要是学习XPath的一些语法, 理解 节点 概念
  2. / 从根节点匹配
  3. // 从任意节点匹配
  4. @ 选取属性
  5. text() 函数文本定位, eg: xpath(‘.//td[@class=”span2”]/strong/text()’)
  • XPath 和 BeautifulSoup补充
  1. XPath属于单一精准定位, 它只处理定义的当前节点, 如何当前节点还有 子节点 , 它不作处理; 而BeautifulSoup对象会处理选取到的节点及其子节点 ;
  2. XPath选取多个class的用法: 推荐写法:xpath( 'div[contains(@class, "className1") and contains(@class, "className2")]') ; 一般写法:xpath('div[@class="className1 className2"]')
  3. BeautifulSoup选取多个类:soup.select('.className1.className2')

Code

import re
from lxml import etree
from bs4 import BeautifulSoup


html = '''
<div class="download shadow">
<img src="https://pipi/download.png" alt=""/>
<p class='hi'>扫码下载今日头条</p>
<p>今日头条</p>
</div>
'''
# re
pattern = re.compile(r'\w')
res = pattern.findall(html) # 亦可直接调用 re.findall(r'\w', html)

# BeautifulSoup 对html注释欠缺处理
soup = BeautifulSoup(html, 'lxml')
res = soup.div.find('p').get_text()
res = soup.select_one('.hi').get_text() # soup.select_one('div p').get_text()

# XPath
tree = etree.HTML(html)
texts = tree.xpath('//p/text()') # xpath 取出的值是列表类型

# PyQuery
# re BeautifulSoup xpath 已经能处理大部分解析问题了, PyQuery 按需去学习用法, 为加快学习进度, 不再记录.

Python爬虫系列——Day004 python爬虫大全

最近发表
标签列表