应用错误收集

我们如何使用Lucene，Solr或Nutch创建一个简单的搜索引擎？

时间：2008-10-21 21:15:18

标签： lucene solr nutch

我们公司有数以千计的PDF文档。我们如何使用Lucene，Solr或Nutch创建一个简单的搜索引擎？我们将提供一个基本的Java / JSP网页，人们可以输入单词并执行基本和/或查询，然后向他们显示所有匹配PDF的文档链接。

10 个答案:

答案 0 :(得分：8)

我对lucene运气不错，但不是点击，安装和搜索，它确实需要一些工作。
如果您需要可以在10分钟内下载和安装并进行搜索的内容，请查看免费的Ominifind Yahoo Edition http://omnifind.ibm.yahoo.net/，它使用Lucene，但打包时已配置好并准备好在安装时运行，尝试Lucene更容易。

答案 1 :(得分：7)

Nutch启用的Nutch + Lucene + Pdf插件是您的解决方案。 Nutch允许您通过启用pdf插件来解析pdf。

Lucene将允许您为已爬网和已解析的数据编制索引，Nutch具有servlet，可为您提供搜索界面。

我们对内部lans使用相同的内容。

答案 2 :(得分：3)

Google Search Appliance http://www.google.com/enterprise/gsa/

答案 3 :(得分：3)

Lucene系列中的所有项目都不能原生地处理PDF，但是您可以使用实用程序，并编写有关如何自行编写的实例。

Lucene几乎可以做任何你需要它做的事情，但就你的时间来说，就像Tony上面所说的那样，会有很多开销。成千上万的文件确实不是那么多，所以你可以用更轻的替代品来逃避。

也就是说，我仍然建议看看Solr - 它比Lucene更容易设置，支持备份，复制等，以及一个非常适合您的用例的漂亮的JSON接口：http://wiki.apache.org/solr/SolJSON

答案 4 :(得分：3)

我认为您需要一个系统来管理您的PDF文件。请尝试使用dspace系统。 Dspace是一个数字图书馆，它支持Lucene。 www.dspace.org。

答案 5 :(得分：2)

看看eprints。它包括一个工作流程，用于添加新文档，自动索引和缩略图PDF，并具有相当全面的全文搜索功能。它也可以很容易地定制和品牌化。

为什么重新发明轮子。试。

答案 6 :(得分：1)

在这个论坛上回答如此广泛的问题将是艰难的。我建议你看一下 Lucene in Action 这本书，它涵盖了索引和搜索的基本知识。

鉴于你的申请，听起来像Nutch和Solr可能没有必要。由于您的所有文件都在本地提供，Nutch可能没有帮助。如果您的查询负载很高，Solr可以帮助您管理一组搜索者，但Lucene具有高度的性能，并且以非常可扩展的方式处理大型文档集。

可能耗费大量精力的一个方面是使用PDF。可以索引PDF文档，并且有Lucene contributions to facilitate the extraction of raw text from PDFs，但根据文档，结果的质量可能会有所不同。通常，由于格式化说明，PDF文档中关键字的上下文不清楚，并且这使得难以进行邻近搜索或显示匹配的上下文。

答案 7 :(得分：1)

您可能会看到的一个很棒的免费搜索技术是IBM Yahoo!免费搜索。我不确定他们是否已经完成了使用Lucene的计划，但它仍然是使用免费搜索技术的东方之一。我相信它可处理多达500K的文档，并且它还支持PDF和其他非文本格式。图形用户界面;易于自定义搜索结果和基本搜索分析。基本同义词库和强大的API，因此如果开箱即用的结果不符合您的喜好，您可以做任何你想做的事情。我们已经向一些客户提出了这个问题，那里的文档数量不到50万，而且他们喜欢它。

答案 8 :(得分：0)

如果您是Linux服务器，可以使用Beagle对其进行索引，然后只使用随附的搜索功能。它有一个（实验性）网络搜索界面，它也可以连接到FireFox搜索框。

它会自动为文件编制索引，我怀疑你会发现增强或修复beagle比将自己的搜索界面编写到Lucene更有效。

答案 9 :(得分：-4)

具有（imho）在Mac上的独特优势，我在较旧的G5上使用SearchLight。很好的网络界面聚焦，Mac OS的内置索引服务。