网站首页 > 基础教程 正文
Python对于文本处理简单、直观。
任务:想返回一个网页的全部标题的文本行到一个文本文件。
在网页文件的源代码中,页面的标题都是用诸如<h4>……</h4>(后面的数字可以是1-6中任意数字)来标识的,要把这样的行提取出来,并将诸如<h4>或</h4>替换为空白,如果用文本的find()和replace()方法操作,则需要列举六种情况,但如果用正则表达式的findall()和sub()方法,则无需列举。
具体看代码:
import re temp = open('h4.txt','w',encoding="UTF-8") tag = re.compile(r'<h\d>')............# 可以直接写成tag = r'<h\d>' endtag = re.compile(r'</h\d>') with open('original.txt','rU',encoding="UTF-8") as f: ....for line in f.readlines():........ # 返回单行(段落)string ........#if line.startswith("h4"): ........#if line.find("h4") != -1:.... # 返回开始位置,否则返回-1 ........list1 = re.findall(tag,line) ........if list1!=[]: ............#str = line.replace("h4","") ............str = re.sub(tag,"",line) ............str = re.sub(endtag,"",str) ............temp.write(str) temp.close() # 也可以将文件内容做为一个字符串返回,利用以下正则表达式及查找返回一个列表: # res = r'<div>.*?</div>' # 使用非贪婪模式 print("finished!") import win32api win32api.ShellExecute(0,'open',"h4.txt",'','',1)
original.html中所有含有诸如<h4>……</h4>标签的文本行都提取到h4.txt文件中,并将这些html标签代码替换为空白。
-End-
猜你喜欢
- 2024-10-12 python代码是如何执行的? python的代码如何运行
- 2024-10-12 deepin os下使用Geany编写python程序
- 2024-10-12 扩展和嵌入 Python 之重定向输出与编译
- 2024-10-12 python爬虫数据匹配-正则(re模块的用法)
- 2024-10-12 Python中的.pyc文件是干什么的呢?
- 2024-10-12 解锁 Python 中的正则表达式:轻松搞定文本处理
- 2024-10-12 Python 的底层 — 解释器和内存管理,你了解多少
- 2024-10-12 python程序执行原理 描述python程序执行原理
- 2024-10-12 这些 python 技巧,不知道就 out 了
- 2024-10-12 “挑战用 500 行 Python 写一个 C 编译器”
- 最近发表
- 标签列表
-
- gitpush (61)
- pythonif (68)
- location.href (57)
- tail-f (57)
- pythonifelse (59)
- deletesql (62)
- c++模板 (62)
- css3动画 (57)
- c#event (59)
- linuxgzip (68)
- 字符串连接 (73)
- nginx配置文件详解 (61)
- html标签 (69)
- c++初始化列表 (64)
- exec命令 (59)
- canvasfilltext (58)
- mysqlinnodbmyisam区别 (63)
- arraylistadd (66)
- node教程 (59)
- console.table (62)
- c++time_t (58)
- phpcookie (58)
- mysqldatesub函数 (63)
- window10java环境变量设置 (66)
- c++虚函数和纯虚函数的区别 (66)