如何在crawler4j中添加(集成)crackjax?

时间:2019-03-05 20:18:13

标签: web-crawler google-crawlers crawler4j

我正在研究Web爬虫,该爬虫使用crawler4j从网站获取数据,一切进行得很好,但是主要问题是基于ajax的事件。因此,我发现crawljax库可以解决此问题,但是我无法在何时何地使用它。

我什么时候使用它(我是指工作序列)?

  • 在使用crawler4j获取页面之前。

  • 使用crawler4j获取页面后。

  • 我使用的网址是使用crawler4j来的,并使用它通过crawljax来获取Ajax数据(页面)。

1 个答案:

答案 0 :(得分:0)

crawljax库本身就是一个爬网程序。集成到crawler4j中需要您进行大量手动操作。

我建议您在crawler4j前面使用Selenium和/或CasperJS和/或PhantomJS的组合,例如,可以将JavaScript引擎运行为crawler4j前面的代理。但是,这会降低网络爬虫的性能