对于小巧,轻便的单词搜索引擎的任何建议?
我有一套'文件',每个文件基本上都是一小撮任意单词。 鉴于一份新文件,我需要获得一份“类似”文件的清单以及它们的相似程度。文件可能很小......最多只有几段。
我会将它作为一个子组件使用,并期望只为它提供带有ID的文档,然后会搜索“类似”文档到我目前的文档。
答案 0 :(得分:1)
Whoosh是纯Python(无C,无外部数据库)索引器/搜索引擎。有关详细信息,请查看documentation。它确实支持词干。
我在mediawiki实例的XML转储上试了一下,它看起来效果很好!
答案 1 :(得分:0)
答案 2 :(得分:0)
我认为Lucene是一种选择。它应该允许你构建一个自定义的单词搜索引擎包。
答案 3 :(得分:0)
我想知道MongoDB http://www.mongodb.org/display/DOCS/Home
似乎'全文搜索'可能是我追求的...... 并且可以使用其他字段进行搜索。