Stormcrawler是否遵循次级JavaScript页面内容加载?

时间:2018-10-22 20:22:53

标签: web-crawler nutch stormcrawler

从我对webmd.com的抓取结果来看,似乎可能并非如此,我认为期望如此之高太过复杂了。但我想我还是要仔细检查。

因此,如果我有一个页面在初始页面加载后使用JavaScript加载其主体,那么Stormcrawler是否有任何方法可以等待该次要内容加载然后抓取页面?

我想除了极高级别和复杂的爬虫(例如Google或Bing可能会使用的爬虫)之外,没有其他爬虫会这样做-甚至可能不需要,因为这需要浏览器级的智能和复杂性。关于您甚至如何实现这种身材行为的想法都会产生焦虑。

1 个答案:

答案 0 :(得分:0)

StormCrawler具有selenium-based protocol implementation,可将导航委派给浏览器。 tutorial on our blog解释了如何使用它。我倾向于使用Chromedriver并在可视模式下以Chrome进行测试以进行测试和调试,然后将其切换为无头产品。 基本上,您让浏览器处理动态内容。您甚至可以实施导航操作,例如单击按钮,填写表单等...这对于爬网特定站点很有用,但对于常规爬网而言,性能可能并不理想。