如何为本地文件中的全文搜索开发简单的搜索引擎

时间:2014-04-03 12:58:06

标签: apache solr lucene elasticsearch full-text-search

有人可以告诉我从哪里开始为本地文件开发一个简单的全文搜索引擎吗?

我有一个带LAMP的Debian 7服务器,我已经安装了一个Windows网络驱动器。到目前为止,我正在使用this script向其他本地网络用户显示目录树,他们可以从已安装的网络驱动器下载文件。

但我必须构建一个简单的搜索引擎,它可以索引已安装文件夹中本地文件的名称和内容(如果有) - Microsoft doc,docx,xl​​s,xlsx,rtf,txt。搜索必须返回文件的名称,路径和最好的是,如果文本的一部分存在搜索词(如果文件有文本)。

有人能指出我正确的方向,我必须阅读并学会这样做吗?感谢。

2 个答案:

答案 0 :(得分:4)

你需要一些工具。您需要某些内容来索引和搜索内容,并且您已使用三个用于此任务的好工具标记了该问题,。他们每个人都有丰富的教程和示例来帮助您入门。

您需要的另一件事是读取来自所有这些不同文件类型的内容的方法。我推荐Apache Tika。它是一个很好的工具包,可以读取你列出的所有格式,并且与Lucene一起使用。

您可以在此问题中看到他们一起使用的示例:Tika in Action book examples Lucene StandardAnalyzer does not work

答案 1 :(得分:2)

你可能会觉得这很有帮助,你可能没有。

我让Solr和Nutch设置为我的本地文件系统编制索引并将它们存储在Solr中,并指导我如何设置它们。

这将为您的应用程序提供可靠的后端。

以下是链接。 Solr设置的前两个,Nutch集成的最后两个

http://amac4.blogspot.co.uk/2013/07/setting-up-solr-with-apache-tomcat-be.html http://amac4.blogspot.co.uk/2013/07/setting-up-tika-extracting-request.html

http://amac4.blogspot.co.uk/2013/07/configuring-nutch-to-crawl-urls.html http://amac4.blogspot.co.uk/2013/07/setting-up-nutch-to-crawl-filesystem.html