我想对sphinx指数中最常用的词进行评分。我找到的唯一一种方法是/usr/bin/indexer -c /etc/sphinxsearch/sphinx.conf indexname --buildfreqs --buildstops /home/user/test.txt 1000
。但这种方法不考虑形态学。一个单词以不同的形式计为几个单词。也许还有另一种计算所有索引词的方法?
答案 0 :(得分:1)
如评论中所述,可以使用indextool --dumpdict
- 它应该从索引中提供单词计数。因为它来自索引,它已经被标准化了'根据charset_table,字形,甚至形态。
(但仅适用于dict=keywords
索引)