用Java编写的最好的开源Web爬虫工具是什么?

时间:2011-12-12 12:14:59

标签: java web-crawler

什么是最好的开源Web爬虫工具,用Java编写。

2 个答案:

答案 0 :(得分:10)

试试crawler4j。您只需要实现一个简单的界面,该界面可以控制访问哪些URL以及如何处理每个已爬网的页面。

答案 1 :(得分:5)

java中的

我认为它归结为Nutch vs Heritrix。您应该指定您的需求以获得更好的答案。