应用错误收集

Web spider，它能够抓取基于ajax的网站

时间：2015-11-12 15:15:28

标签： ajax selenium web-crawler crawler4j

现在我正在使用Crawler4j，我对此非常满意 - 但它无法抓取基于ajax的网站。我用硒一次用于另一种方法，这与phantomjs结合得很好。那么有没有办法将Selenium插入crawler4j？

如果没有 - 是否有另一个用于处理基于Ajax的网站的Java库？

（使用webspider我的意思是，我必须给程序一个网址，它会自动开始从网站中提取内容）

1 个答案:

答案 0 :(得分：2)

基本上是的。 crawler4j的源代码托管在GitHub上。

您可以自由提供扩展程序，因此crawler4j可以获取基于Ajax的网站。默认情况下， crawler4j 无法获取此类网站。

Apache Nutch能够在抓取网页时呈现JS，如here所述。但是，为Web-Crawling设置Apache Nutch比调整现有代码结构以与crawler4j一起使用要多得多。