爬虫需要具有可扩展的体系结构以允许更改内部进程,例如实现新步骤(预解析器,解析器等等)
我找到了Heritrix项目(http://crawler.archive.org/)。
但还有其他不错的项目吗?
答案 0 :(得分:14)
Nutch是免费抓取工具的最佳选择。它基于Lucene的概念(以企业缩放的方式)构建,并由Hadoop后端使用MapReduce(类似于Google)支持进行大规模数据查询。好产品!我目前正在阅读Manning中新的(尚未发布的)Hadoop in Action中的Hadoop。如果你走这条路线,我建议你去他们的技术评审小组获得这个标题的早期副本!
这些都是基于Java的。如果你是一个.net人(像我一样!!)那么你可能对Lucene.NET,Nutch.NET和Hadoop.NET更感兴趣,它们都是逐类的,api是api端口的C#。
答案 1 :(得分:4)
您可能还想尝试Scrapy http://scrapy.org/
指定和运行抓取工具非常简单。
答案 2 :(得分:1)
Abot是一个很好的可扩展的网络爬虫。该架构的每个部分都是可插拔的,可让您完全控制其行为。它的开源,免费供商业和个人使用,用C#编写。
答案 3 :(得分:0)
我最近发现了一个名为 - Nutch。
答案 4 :(得分:0)
如果你没有被平台限制,我过去曾经有Nutch的非常好的经历。
它是用Java编写的,与Lucene索引器密切相关。