web-crawler - 如何在crawler4j中添加（集成）crackjax？ - Thinbug

如何在crawler4j中添加（集成）crackjax？

时间：2019-03-05 20:18:13

标签： web-crawler google-crawlers crawler4j

我正在研究Web爬虫，该爬虫使用crawler4j从网站获取数据，一切进行得很好，但是主要问题是基于ajax的事件。因此，我发现crawljax库可以解决此问题，但是我无法在何时何地使用它。

我什么时候使用它（我是指工作序列）？

在使用crawler4j获取页面之前。

或

使用crawler4j获取页面后。

或

我使用的网址是使用crawler4j来的，并使用它通过crawljax来获取Ajax数据（页面）。

1 个答案:

答案 0 :(得分：0)

crawljax库本身就是一个爬网程序。集成到crawler4j中需要您进行大量手动操作。

我建议您在crawler4j前面使用Selenium和/或CasperJS和/或PhantomJS的组合，例如，可以将JavaScript引擎运行为crawler4j前面的代理。但是，这会降低网络爬虫的性能