sphinx可以使用形态学计算其索引中的所有单词吗?

时间:2017-08-25 16:03:58

标签: indexing sphinx

我想对sphinx指数中最常用的词进行评分。我找到的唯一一种方法是/usr/bin/indexer -c /etc/sphinxsearch/sphinx.conf indexname --buildfreqs --buildstops /home/user/test.txt 1000。但这种方法不考虑形态学。一个单词以不同的形式计为几个单词。也许还有另一种计算所有索引词的方法?

1 个答案:

答案 0 :(得分:1)

如评论中所述,可以使用indextool --dumpdict - 它应该从索引中提供单词计数。因为它来自索引,它已经被标准化了'根据charset_table,字形,甚至形态。

(但仅适用于dict=keywords索引)