我需要下载以下网页:http://m.10bet.com/#leage_panel#10096
这是一个体育博彩页面,我需要报价。所以,首先这看起来很简单。但是,这是发生的事情(您可以使用例如浏览器的开发人员工具进行检查):
相反,我需要使用能够评估javascript的无头浏览器。 HtmlUnit for java是不够的,因为它不提供强大的JavaScript功能。因此,PhantomJS与CasperJS的结合是我目前的选择。我使用以下脚本应用CasperJS:
var casper = require('casper').create();
casper.start('http://m.10bet.com/#leage_panel#10096', function() {
var url = 'http://m.10bet.com/#leage_panel#10096';
this.download(url, '10bet.html');
});
casper.run(function() {
this.echo('Done.').exit();
});
但是,此脚本不会加载整个页面。只是初始页面。如何加载浏览器中显示的完整网页?
答案 0 :(得分:7)
该脚本看起来是一个好的开始,但是一旦你的(HTML)页面加载,(CasperJS)脚本就会停止,因为你还没有给它任何更多的指令。解决这个问题的最简单方法是进入睡眠状态几秒钟,然后刮掉页面:
var casper = require('casper').create();
var fs=require('fs');
casper.start('http://m.10bet.com/#leage_panel#10096', function() {
this.wait(2000, function() {
fs.write("10bet.html", this.getHTML() );
});
});
casper.run();
2000毫秒的暂停是原始的,原因有两个:
因此,最好在页面上标识您想要并且需要在那里的内容,然后使用Casper的waitForXXX()
函数之一。从这里开始查看API文档:http://casperjs.readthedocs.org/en/latest/modules/casper.html#waitfor
另外一点,我猜你实际上并不想要整个HTML页面,只是其中的数据。 getHTML()
使用参数来过滤收到的内容。例如。在您的情况下getHTML('#league_block')
可能会更有用。再次,请参阅API文档以获取更多想法。