什么是针对HTML和XML文档(本地或基于Web)使用的良好爬虫(蜘蛛),并且在Lucene / Solr解决方案空间中运行良好?可能是基于Java的,但不一定是。
答案 0 :(得分:11)
在我看来,这是一个非常重要的漏洞,它阻碍了Solr的广泛采用。新的DataImportHandler是导入结构化数据的第一步,但是Solr没有一个好的文档摄取管道。 Nutch确实有效,但Nutch履带和Solr之间的整合有点笨拙
我已经尝试了所有可以找到的开源爬虫,但没有一个与Solr集成开箱即用。
密切关注OpenPipeline和Apache Tika。
答案 1 :(得分:6)
我尝试过nutch,但很难与Solr集成。我会看看Heritrix。它有一个广泛的插件系统,可以很容易地与Solr集成,并且它在爬行时要快得多。它广泛使用线程来加速这个过程。
答案 2 :(得分:4)
我建议您查看Nutch以获得灵感:
Nutch是开源网络搜索软件。它建立在Lucene Java之上,添加了特定于Web的内容,例如爬虫,链接图数据库,HTML和其他文档格式的解析器等。
答案 3 :(得分:4)
同时检查Apache Droids [http://incubator.apache.org/droids/] - 这不希望是一个简单的蜘蛛/爬虫/工作者框架。
这是新的,现在还不容易使用(需要一些推文来运行),但是要注意这是一件好事。
答案 4 :(得分:2)
Nutch可能是你最接近的比赛,但它并不太灵活。
如果你需要更多东西,你将不得不破解你自己的爬虫。它并不像听起来那么糟糕,每种语言都有Web库,所以你只需要将一些任务队列管理器与HTTP下载器和HTML解析器连接起来,这并不是那么多工作。你最有可能只使用一个盒子,因为爬行主要是带宽关注,而不是CPU密集型。
答案 5 :(得分:2)
C#,但生成Lucene(Java和C#)耗材索引文件。
答案 6 :(得分:0)
有没人试过Xapian?它比solr快得多,用c ++编写。