通过延长网络超时来阅读Apache Nutch中的JavaScript内容

时间:2016-01-12 02:20:36

标签: ajax apache nutch

我使用Apache Nutch抓取单个域。但是,它的大多数页面都使用JavaScript/AJAX操作来加载我想要获取的一些链接。在nutch-site.xml中延长网络超时设置是否有助于延长爬虫的等待时间(并可能允许Ajax调用完成并自行渲染)?

谢谢!

1 个答案:

答案 0 :(得分:0)

尝试使用nutch selenium插件。它最近发布了nutch 1.11。查看protocol-selenium和protocol-interactiveselenium插件,以更好地了解它们的工作方式。