应用错误收集

有关与Lucene或Solr一起使用的蜘蛛工具的建议吗？

时间：2008-11-12 00:50:36

标签： lucene solr web-crawler

什么是针对HTML和XML文档（本地或基于Web）使用的良好爬虫（蜘蛛），并且在Lucene / Solr解决方案空间中运行良好？可能是基于Java的，但不一定是。

7 个答案:

答案 0 :(得分：11)

在我看来，这是一个非常重要的漏洞，它阻碍了Solr的广泛采用。新的DataImportHandler是导入结构化数据的第一步，但是Solr没有一个好的文档摄取管道。 Nutch确实有效，但Nutch履带和Solr之间的整合有点笨拙我已经尝试了所有可以找到的开源爬虫，但没有一个与Solr集成开箱即用。
密切关注OpenPipeline和Apache Tika。

答案 1 :(得分：6)

我尝试过nutch，但很难与Solr集成。我会看看Heritrix。它有一个广泛的插件系统，可以很容易地与Solr集成，并且它在爬行时要快得多。它广泛使用线程来加速这个过程。

答案 2 :(得分：4)

我建议您查看Nutch以获得灵感：

Nutch是开源网络搜索软件。它建立在Lucene Java之上，添加了特定于Web的内容，例如爬虫，链接图数据库，HTML和其他文档格式的解析器等。

答案 3 :(得分：4)

同时检查Apache Droids [http://incubator.apache.org/droids/] - 这不希望是一个简单的蜘蛛/爬虫/工作者框架。

这是新的，现在还不容易使用（需要一些推文来运行），但是要注意这是一件好事。

答案 4 :(得分：2)

Nutch可能是你最接近的比赛，但它并不太灵活。

如果你需要更多东西，你将不得不破解你自己的爬虫。它并不像听起来那么糟糕，每种语言都有Web库，所以你只需要将一些任务队列管理器与HTTP下载器和HTML解析器连接起来，这并不是那么多工作。你最有可能只使用一个盒子，因为爬行主要是带宽关注，而不是CPU密集型。

答案 5 :(得分：2)

http://arachnode.net

C＃，但生成Lucene（Java和C＃）耗材索引文件。

答案 6 :(得分：0)

有没人试过Xapian？它比solr快得多，用c ++编写。