标签: web-crawler nutch
我正在开发一个可以抓取数以千万计的网页的系统,这些网页将继续运行。 我宁愿不从头开发一个爬虫。
哪些开源网络抓取工具符合以下条件:
如果我遗漏了任何内容,请评估您认为重要的其他标准。
我有以下开源搜寻器的列表。他们是否具备上述功能?
答案 0 :(得分:0)
我已经和nutch一起工作了一段时间,看起来它很适合这个标准。插件系统允许您抓取新材料并轻松部署。我遇到的一件事就是让它使用多个代理,但总的来说它是非常可定制的。