我们如何使用Lucene,Solr或Nutch创建一个简单的搜索引擎?

时间:2008-10-21 21:15:18

标签: lucene solr nutch

我们公司有数以千计的PDF文档。我们如何使用Lucene,Solr或Nutch创建一个简单的搜索引擎?我们将提供一个基本的Java / JSP网页,人们可以输入单词并执行基本和/或查询,然后向他们显示所有匹配PDF的文档链接。

10 个答案:

答案 0 :(得分:8)

我对lucene运气不错,但不是点击,安装和搜索,它确实需要一些工作。
如果您需要可以在10分钟内下载和安装并进行搜索的内容,请查看免费的Ominifind Yahoo Edition http://omnifind.ibm.yahoo.net/,它使用Lucene,但打包时已配置好并准备好在安装时运行,尝试Lucene更容易。

答案 1 :(得分:7)

Nutch启用的Nutch + Lucene + Pdf插件是您的解决方案。 Nutch允许您通过启用pdf插件来解析pdf。

Lucene将允许您为已爬网和已解析的数据编制索引,Nutch具有servlet,可为您提供搜索界面。

我们对内部lans使用相同的内容。

答案 2 :(得分:3)

Google Search Appliance http://www.google.com/enterprise/gsa/

答案 3 :(得分:3)

Lucene系列中的所有项目都不能原生地处理PDF,但是您可以使用实用程序,并编写有关如何自行编写的实例。

Lucene几乎可以做任何你需要它做的事情,但就你的时间来说,就像Tony上面所说的那样,会有很多开销。成千上万的文件确实不是那么多,所以你可以用更轻的替代品来逃避。

也就是说,我仍然建议看看Solr - 它比Lucene更容易设置,支持备份,复制等,以及一个非常适合您的用例的漂亮的JSON接口:http://wiki.apache.org/solr/SolJSON

答案 4 :(得分:3)

我认为您需要一个系统来管理您的PDF文件。请尝试使用dspace系统。 Dspace是一个数字图书馆,它支持Lucene。 www.dspace.org。

答案 5 :(得分:2)

看看eprints。它包括一个工作流程,用于添加新文档,自动索引和缩略图PDF,并具有相当全面的全文搜索功能。它也可以很容易地定制和品牌化。

为什么重新发明轮子。试。

答案 6 :(得分:1)

在这个论坛上回答如此广泛的问题将是艰难的。我建议你看一下 Lucene in Action 这本书,它涵盖了索引和搜索的基本知识。

鉴于你的申请,听起来像Nutch和Solr可能没有必要。由于您的所有文件都在本地提供,Nutch可能没有帮助。如果您的查询负载很高,Solr可以帮助您管理一组搜索者,但Lucene具有高度的性能,并且以非常可扩展的方式处理大型文档集。

可能耗费大量精力的一个方面是使用PDF。可以索引PDF文档,并且有Lucene contributions to facilitate the extraction of raw text from PDFs,但根据文档,结果的质量可能会有所不同。通常,由于格式化说明,PDF文档中关键字的上下文不清楚,并且这使得难以进行邻近搜索或显示匹配的上下文。

答案 7 :(得分:1)

您可能会看到的一个很棒的免费搜索技术是IBM Yahoo!免费搜索。我不确定他们是否已经完成了使用Lucene的计划,但它仍然是使用免费搜索技术的东方之一。我相信它可处理多达500K的文档,并且它还支持PDF和其他非文本格式。图形用户界面;易于自定义搜索结果和基本搜索分析。基本同义词库和强大的API,因此如果开箱即用的结果不符合您的喜好,您可以做任何你想做的事情。我们已经向一些客户提出了这个问题,那里的文档数量不到50万,而且他们喜欢它。

答案 8 :(得分:0)

如果您是Linux服务器,可以使用Beagle对其进行索引,然后只使用随附的搜索功能。它有一个(实验性)网络搜索界面,它也可以连接到FireFox搜索框。

它会自动为文件编制索引,我怀疑你会发现增强或修复beagle比将自己的搜索界面编写到Lucene更有效。

答案 9 :(得分:-4)

具有(imho)在Mac上的独特优势,我在较旧的G5上使用SearchLight。很好的网络界面聚焦,Mac OS的内置索引服务。