网站首页 > 基础教程 正文
以前写爬虫,遇到需要登录的页面,一般都是通过chrome的检查元素,查看登录需要的参数和加密方法,如果网站的加密非常复杂,例如登录qq的,就会很蛋疼
在后面,有了Pyv8,就可以把加密的js文件扔给它,然后返回加密后的字符串。但是Pyv8只能安装在Centos7的版本,而且耗用内存也比较大。
现在有了PhantomJS,再也不需要考虑登录的参数和加密了,用PhantomJS打开页面,通过JS或JQuery语句,填入账号和密码,然后点击登陆,然后把Cookies保存下来,就可以模拟登陆了。
1.安装
# yum -y install gcc gcc-c++ make flex bison gperf ruby \
openssl-devel freetype-devel fontconfig-devel libicu-devel sqlite-devel \
libpng-devel libjpeg-devel
# git clone git://github.com/ariya/phantomjs.git
# cd phantomjs
# git checkout 2.0
# ./build.sh
2.创建一个page实例
var page = require('webpage').create;
3.打开一个页面
page.open('http://www.baidu.com', function {
});
第二个参数是打开页面后回调的函数
4.执行js语句
page.evaluate(function {
$("button").click;
console.info($("button"))
});
包裹在evaluate里面的js语句是在沙箱里面运行的,沙箱的上下文环境就是open的页面的环境,所以在这里可以通过js语句访问页面的元素,例如$("body").html
由于在沙箱中执行,所以console.info不会输出的终端,如果需要输出到终端,就要设置回调函数:
page.onConsoleMessage = function(msg) {
console.log(msg);
};
5.cookies
获取页面的cookies
console.info(JSON.stringify(page.cookies))
cookies的数据结构,相当于{"age":"12"}
:
[
{
"domain": "info.aaa.com",
"httponly": false,
"name": "age",
"path": "/",
"secure": false,
"value": "12"
}
]
6.截图
page.viewportSize = { width: 1366, height: 600 };//设置页面的尺寸
page.render('info_test.png');
如果截图后,中文字符显示为方框,安装字体库
yum install bitmap-fonts bitmap-fonts-cjk
7.脚本参数
var page = require('webpage').create,
system = require('system'),
address, output, size;
if (system.args.length != 5) {
console.log('Usage: test.js domain username password projects screen_shot_path ');
phantom.exit(1);
} else {
var domain = system.args[1]
var username = system.args[2]
var password = system.args[3]
var projects = system.args[4]
var root_shot_path = system.args[5]
}
8.注意
- 由于js语言是非阻塞的,所以有时候需要使用
setTimtout
setInterval
来等待沙箱中执行的js语句,例如等待里面的ajax完成等。
9.简单的模拟登陆DEMO
var page = require('webpage').create;
page.viewportSize = { width: 1366, height: 600 };
var url='http://www.mysite.com/login'
page.open(url, function {
ret=page.evaluate(function {
$("#username")[0].value='lujianxing'
$("#password")[0].value='test'
$("#submit").click;
});
setTimeout('print_cookies',10000)
});
function print_cookies{
console.info(JSON.stringify(page.cookies, undefined, 4))
phantom.exit
}
10.命令行运行脚本
phantomjs test.js
参考
转载请带上我
猜你喜欢
- 2024-12-19 手把手教你用python抢京东大额神券
- 2024-12-19 SpringCloud系列——SSO 单点登录
- 2024-12-19 学习Java半年时间可以到哪种程度 学java半年能找到工作吗
- 2024-12-19 前端工程师都会遇到的nodejs常见问题和解决方案复盘
- 2024-12-19 Java后端学习路线梳理 java后端要掌握的知识
- 2024-12-19 真正的0基础如何学JAVA 零基础学java从哪里开始
- 2024-12-19 新必应用python写一个京东抢茅台的脚本,太实用了
- 2024-12-19 知了堂Java培训怎么样,都学习哪些内容
- 2024-12-19 Python爬虫大佬的万字长文总结,requests与selenium操作合集
- 2024-12-19 究竟是多深的功力!能一举拿下字节/腾讯/蚂蚁三大厂的前端offer
- 最近发表
- 标签列表
-
- gitpush (61)
- pythonif (68)
- location.href (57)
- tail-f (57)
- pythonifelse (59)
- deletesql (62)
- c++模板 (62)
- css3动画 (57)
- c#event (59)
- linuxgzip (68)
- 字符串连接 (73)
- nginx配置文件详解 (61)
- html标签 (69)
- c++初始化列表 (64)
- exec命令 (59)
- canvasfilltext (58)
- mysqlinnodbmyisam区别 (63)
- arraylistadd (66)
- node教程 (59)
- console.table (62)
- c++time_t (58)
- phpcookie (58)
- mysqldatesub函数 (63)
- window10java环境变量设置 (66)
- c++虚函数和纯虚函数的区别 (66)