标签: java web-crawler
什么是最好的开源Web爬虫工具,用Java编写。
答案 0 :(得分:10)
试试crawler4j。您只需要实现一个简单的界面,该界面可以控制访问哪些URL以及如何处理每个已爬网的页面。
答案 1 :(得分:5)
我认为它归结为Nutch vs Heritrix。您应该指定您的需求以获得更好的答案。