我有一个MySQL数据库,里面有几十万个文本文件,我需要对这些文本文件进行搜索。我决定使用Sphinx来实现搜索功能。但是,我需要用户能够找到所有不同形式的搜索词。我在python中编写了一个能够产生相当准确结果的变形器,我的问题是:如何将它与Sphinx集成? 帮助大大减少。
编辑:由于还没有答案,我想补充一点,“它真的很难”或“它不能完成”这样的评论也会受到批评。如果我的想法有问题,最好知道:)答案 0 :(得分:0)
我知道问题已经过时了,但它还在这里,所以...
狮身人面像现在有built-in support for lemmatizers and stemmers。该词形变换器目前有English, German, and Russian dictionaries。我不确定字典的格式,所以我不确定添加其他语言有多难(尽管词干分析器支持其他几种语言)。