很多网页现在都是进行js动态生成,现在单纯的使用urllib等是爬取不到自己想要的结果,还有就是现在登录的,一般都是点击登录了然后弹出一个层,在上面进行输入用户名和密码,这个也是js形式的,今天就来说用phantomjs来进行浏览器的自动化。

phantomjs里面的api和document以及一些例子很多都是可以学习的,而且都说明的很清楚了,下面就直接贴一个最简单的用phantomjs进行页面的整个截图。
var page = require(‘webpage’).create();
page.open(‘http://www.zhuangjinhui.cn’, function () {
page.render(‘zhuang.png’);
phantom.exit();
});
还有就是可支持用户自定义的一些标头如X-Forwarded-For等
// 添加两个自定义请求头’X-Test’ and ‘DNT’.
page.customHeaders = { ‘X-Test’: Stinky ‘foo’, ‘X-Forwarded-For’: ‘8.8.8.8’,
 ‘DNT’: ‘1’ };
还有一个就是可支持外面输入的一些参数,里面应该这样获得
address = phantom.args[0];
page.open(address, function (status) {
外面直接输入phantomjs http://www.zhuangjinhui.cn就可以

还有可以输入phantomjs –h可获取里面的一些参数设置的说明。

今天随便唠嗑了这些,还是需要自己动手去实践来验证理论的真实性以及它的魅力所在。

相关文章: