phantomJs是一个(headless WebKit with JavaScript API),就可以很方便的用webkit把网页内容解析出来(跑完javascript)

直接上代码:

var page = require(‘webpage’).create();
console.log(‘The JERSEYS default cheap mlb jerseys user agent ormeggi… is ‘ + wholesale MLB jerseys page.settings.userAgent);
page.settings.userAgent = ‘SpecialAgent’;//修改浏览器头
page.open(‘http://www.zhuangjinhui.cn’, function notepad++使用心得 (status) {
if (status !== ‘success’) {
console.log(‘Unable to access network’);
} else {
if (page.injectJs(“jquery.min.js”)) {
//console.log(“jQuery loaded…”);
}
var wholesale NFL jerseys ua = page.evaluate(function () {//执行javascript引进jqury就可以直接用jquery
date[‘mytag’]=document.getElementById(‘myagent’).innerText;
data[‘title’] = $(‘h1.doc-banner-title’).text();
data[‘content’] TEAMS = $(‘#doc-original-text’).text();
});
console.log(date);
}
phantom.exit();
});

再来一个简单的截取网页快照,直接把网页截取成一个png图片

var page = require(‘webpage’).create();
page.open(‘http://www.zhuangjinhui.cn’, function() {
page.render(‘example.png’);
phantom.exit();
});
有兴趣的朋友可以试一下

一般的python是执行不了javascript的,只能简单的爬取页面的代码,这个正好能互补

相关文章: