获取文本字段中前10个最常用的单词

时间:2018-04-12 09:03:23

标签: elasticsearch kibana

我有一个包含数千个文档的索引,每个文档都有一个完整的文本字段。

我想搜索所有这些字段并获取最常返回的10个最常见的字词。

如果可行,我还想在Kibana上进行可视化的方式。

1 个答案:

答案 0 :(得分:2)

实现这一目标的最常见方法是使用keyword datatype复制全文字段。这样您就可以在该字段doc hereterms aggregation。也许你可以考虑做一个significant term aggregation - doc here,从而避免出现停用词和常用词。在ES 6.x中,您还可以使用significant text aggregation - doc here,而无需创建keyword字段,但我从不尝试过,我也不知道它是如何工作的。相反,如果您需要检索每个文档的单词频率,则应使用termvector - doc here