我使用Apache Nutch
抓取单个域。但是,它的大多数页面都使用JavaScript/AJAX
操作来加载我想要获取的一些链接。在nutch-site.xml
中延长网络超时设置是否有助于延长爬虫的等待时间(并可能允许Ajax调用完成并自行渲染)?
谢谢!
答案 0 :(得分:0)
尝试使用nutch selenium插件。它最近发布了nutch 1.11。查看protocol-selenium和protocol-interactiveselenium插件,以更好地了解它们的工作方式。