我有索引过程,它从mysql数据库获取文件并将它们放入solr。
我想记录每个单词出现的拼写次数。
显然我可以将它们全部转储到一个纯文本文件中,然后sort | uniq -c
该文件,并将所有单词保留在N以上 - 是它要走的路,还是有更聪明的方法?
答案 0 :(得分:1)
在SOLR中你有方面。您可以尝试使用facet.field指向存储您感兴趣的文本数据的字段来执行构面搜索。您可以使用facet.mincount在特定频率级别上剪切输出列表。确保设置facet.zeroes = false以从结果频率列表中排除任何可能的零。