我目前正在研究Sphinx搜索引擎,我在使用wordforms和libstemmer时遇到了一些问题。 这是我的配置:
wordforms = /etc/sphinxsearch/wordforms.txt
morphology = libstemmer_french, libstemmer_english
http://sphinxsearch.com/blog/2015/09/09/sphinx-2-2-10-release/
激活libstemmer时,wordforms文件中的某些关联根本不起作用。例如:girafe>长颈鹿,科学> sciense,aztec> azteque,louie>路易斯,...... 当我取消激活libstemmer选项时,一切正常。
所以,我不明白如何使用libstemmer和wordforms,因为libstemmer应该在字形之后被称为,而不是之前的。
答案 0 :(得分:0)
因为libstemmer应该在字形之后调用,而不是之前。
之后应用。但是,字形实现了形态异常' - 即如果单词由单词形式改变,则不应用形态学。 (只有在没有形成形态的字形时)
关于唯一的希望就是这个花絮......
从版本2.1.1-beta开始,......,如果一行以波形符号开头("〜"),将在形态学之后应用字形,而不是之前。
...所以可以将libstemmed单词放入wordforms,然后你得到两组处理。