有关与Lucene或Solr一起使用的蜘蛛工具的建议吗?

时间:2008-11-12 00:50:36

标签: lucene solr web-crawler

什么是针对HTML和XML文档(本地或基于Web)使用的良好爬虫(蜘蛛),并且在Lucene / Solr解决方案空间中运行良好?可能是基于Java的,但不一定是。

7 个答案:

答案 0 :(得分:11)

在我看来,这是一个非常重要的漏洞,它阻碍了Solr的广泛采用。新的DataImportHandler是导入结构化数据的第一步,但是Solr没有一个好的文档摄取管道。 Nutch确实有效,但Nutch履带和Solr之间的整合有点笨拙 我已经尝试了所有可以找到的开源爬虫,但没有一个与Solr集成开箱即用。
密切关注OpenPipeline和Apache Tika。

答案 1 :(得分:6)

我尝试过nutch,但很难与Solr集成。我会看看Heritrix。它有一个广泛的插件系统,可以很容易地与Solr集成,并且它在爬行时要快得多。它广泛使用线程来加速这个过程。

答案 2 :(得分:4)

我建议您查看Nutch以获得灵感:

  

Nutch是开源网络搜索软件。它建立在Lucene Java之上,添加了特定于Web的内容,例如爬虫,链接图数据库,HTML和其他文档格式的解析器等。

答案 3 :(得分:4)

同时检查Apache Droids [http://incubator.apache.org/droids/] - 这不希望是一个简单的蜘蛛/爬虫/工作者框架。

这是新的,现在还不容易使用(需要一些推文来运行),但是要注意这是一件好事。

答案 4 :(得分:2)

Nutch可能是你最接近的比赛,但它并不太灵活。

如果你需要更多东西,你将不得不破解你自己的爬虫。它并不像听起来那么糟糕,每种语言都有Web库,所以你只需要将一些任务队列管理器与HTTP下载器和HTML解析器连接起来,这并不是那么多工作。你最有可能只使用一个盒子,因为爬行主要是带宽关注,而不是CPU密集型。

答案 5 :(得分:2)

http://arachnode.net

C#,但生成Lucene(Java和C#)耗材索引文件。

答案 6 :(得分:0)

有没人试过Xapian?它比solr快得多,用c ++编写。