Web spider,它能够抓取基于ajax的网站

时间:2015-11-12 15:15:28

标签: ajax selenium web-crawler crawler4j

现在我正在使用Crawler4j,我对此非常满意 - 但它无法抓取基于ajax的网站。我用硒一次用于另一种方法,这与phantomjs结合得很好。那么有没有办法将Selenium插入crawler4j?

如果没有 - 是否有另一个用于处理基于Ajax的网站的Java库?

(使用webspider我的意思是,我必须给程序一个网址,它会自动开始从网站中提取内容)

1 个答案:

答案 0 :(得分:2)

基本上是的。 crawler4j的源代码托管在GitHub上。

您可以自由提供扩展程序,因此crawler4j可以获取基于Ajax的网站。默认情况下, crawler4j 无法获取此类网站。

Apache Nutch能够在抓取网页时呈现JS,如here所述。但是,为Web-Crawling设置Apache Nutch比调整现有代码结构以与crawler4j一起使用要多得多。