轻量级搜索索引API /库

时间:2008-09-18 06:50:27

标签: search indexing

我正在寻找一个开源搜索索引库。它将用于嵌入式Web应用程序,因此它应具有较小的代码大小。优选地,用C,C ++或PHP编写,并且不需要安装任何数据库来存储索引。索引应该存储在文件上(例如,xml,txt)。我试着看一些着名的搜索库,比如xapian和clucene,它们很好但是嵌入式系统的代码大小相对较大。

这将在Linux平台上运行,并将用于索引HTML文件。

关于什么是好的搜索库/ API的想法?

感谢。

5 个答案:

答案 0 :(得分:2)

答案 1 :(得分:2)

哦,伙计。有几个。为了下降默默无闻......

我确信那里还有更多,但这些都是我的头脑。祝你好运:)

答案 2 :(得分:0)

首先:你必须在某处存储索引。因此,除非您只想要内存索引,否则将需要一个数据文件。

要索引通用项目,我可以向您推荐sqlite:http://www.sqlite.org/。当我有一堆数据时,我甚至在仅内存模式下使用它,我需要用多个索引来处理它。

答案 3 :(得分:0)

这取决于您的要求。 Lucene(Java)的完整发行版可达3MB JAR文件,但实际上可以将其剥离到1MB以下。 CLucene在实践中可能要小得多。你需要多低?...

答案 4 :(得分:0)

Swish-E是用C语言编写的,可能会做你想要的。不需要数据库,使用自己的二进制索引文件格式。

我也使用了ht://Dig但是看起来很久以来该软件一直保持着。

两者都可以在Linux上编译并且索引HTML就好了。

SINO使用的第三个选项是AustLII。联系那里的团队,以确保您获得最新版本。应该在Linux上编译没有太多麻烦。它不是真的设计用于嵌入式系统(SINO代表尺寸是没有对象)但是它上面有一个不错的API我看起来相对较小(因此,它不是为它设计的,但可能也可以工作)。针对HTML。相当快速的索引。值得一看,我想。 (披露:很久以前在那里工作过)

最后,我们使用基于SolrLucene。 Solr使用基于POST的XML文档到服务器的简单API。无论你的语言是什么,都很简单。