Question

我需要下载以下网页：http://m.10bet.com/#leage_panel#10096

这是一个体育博彩页面，我需要报价。所以，首先这看起来很简单。但是，这是发生的事情（您可以使用例如浏览器的开发人员工具进行检查）：

打开网址
页面加载一个初始HTML，随后调用ajax请求以检索引号
但是，引用包含在json中但是它们被模糊化，因此不可能直接从ajax调用中解析它们。此外，网页的javascript也被混淆了。所以没有机会直接读取请求中的引号。

相反，我需要使用能够评估javascript的无头浏览器。 HtmlUnit for java是不够的，因为它不提供强大的JavaScript功能。因此，PhantomJS与CasperJS的结合是我目前的选择。我使用以下脚本应用CasperJS：

var casper = require('casper').create();

casper.start('http://m.10bet.com/#leage_panel#10096', function() {
    var url = 'http://m.10bet.com/#leage_panel#10096';
    this.download(url, '10bet.html');
});

casper.run(function() {
    this.echo('Done.').exit();
});

但是，此脚本不会加载整个页面。只是初始页面。如何加载浏览器中显示的完整网页？

Answer 1

该脚本看起来是一个好的开始，但是一旦你的（HTML）页面加载，（CasperJS）脚本就会停止，因为你还没有给它任何更多的指令。解决这个问题的最简单方法是进入睡眠状态几秒钟，然后刮掉页面：

var casper = require('casper').create();
var fs=require('fs');

casper.start('http://m.10bet.com/#leage_panel#10096', function() {
    this.wait(2000, function() {
        fs.write("10bet.html", this.getHTML() );
   });
});

casper.run();

2000毫秒的暂停是原始的，原因有两个：

如果数据加载的速度比您浪费时间的速度快。
如果加载速度较慢，则脚本无效。

因此，最好在页面上标识您想要并且需要在那里的内容，然后使用Casper的waitForXXX()函数之一。从这里开始查看API文档：http://casperjs.readthedocs.org/en/latest/modules/casper.html#waitfor

另外一点，我猜你实际上并不想要整个HTML页面，只是其中的数据。 getHTML()使用参数来过滤收到的内容。例如。在您的情况下getHTML('#league_block')可能会更有用。再次，请参阅API文档以获取更多想法。

网站抓取：等待网站完全加载

1 个答案: