建议一个简单的搜索引擎的单词袋?

时间:2009-09-21 22:55:53

标签: search full-text-search tags tagging

对于小巧,轻便的单词搜索引擎的任何建议?

我有一套'文件',每个文件基本上都是一小撮任意单词。 鉴于一份新文件,我需要获得一份“类似”文件的清单以及它们的相似程度。文件可能很小......最多只有几段。

  • 词干很棒,但不是很高要求。
  • 不需要使用单词网络进行单词扩展。
  • 开源或免费软件首选,因为这是一个原型,而不是一个完整的项目。
  • unix / linux平台首选。

我会将它作为一个子组件使用,并期望只为它提供带有ID的文档,然后会搜索“类似”文档到我目前的文档。

4 个答案:

答案 0 :(得分:1)

Whoosh是纯Python(无C,无外部数据库)索引器/搜索引擎。有关详细信息,请查看documentation。它确实支持词干。

我在mediawiki实例的XML转储上试了一下,它看起来效果很好!

答案 1 :(得分:0)

SolrSphinx。它们不是完全轻量级但我不建议任何更小的东西,如果项目成功并且需要增长,切换搜索引擎可能会很痛苦。

答案 2 :(得分:0)

我认为Lucene是一种选择。它应该允许你构建一个自定义的单词搜索引擎包。

答案 3 :(得分:0)

我想知道MongoDB http://www.mongodb.org/display/DOCS/Home

似乎'全文搜索'可能是我追求的...... 并且可以使用其他字段进行搜索。