标签: web-crawler google-crawlers crawler4j
我正在研究Web爬虫,该爬虫使用crawler4j从网站获取数据,一切进行得很好,但是主要问题是基于ajax的事件。因此,我发现crawljax库可以解决此问题,但是我无法在何时何地使用它。
我什么时候使用它(我是指工作序列)?
或
答案 0 :(得分:0)
crawljax库本身就是一个爬网程序。集成到crawler4j中需要您进行大量手动操作。
crawler4j
我建议您在crawler4j前面使用Selenium和/或CasperJS和/或PhantomJS的组合,例如,可以将JavaScript引擎运行为crawler4j前面的代理。但是,这会降低网络爬虫的性能