“美国”不是[“美国”,“州”]

时间:2018-10-21 07:21:23

标签: elasticsearch kibana word-cloud

我在elasticsearch中有文本字段,我想在kibana上可视化它的词云...

第一步,我们需要对它们进行标记化,我使用了“标准标记化器” ... 使用这种形式的词云可视化效果如下图所示: you see untied states divided into united and states

但是我需要的是专有名词,例如“ United States”,“ United Nations”,“ Security Council”和...一定不能散开,我希望这样的词云: enter image description here *专有名词或短语几乎在2-5个词之间。 (例如“中华人民共和国”)

我该怎么办? 这和N-Gram有关吗?

示例文本:

  

美利坚合众国是   联合国和联合国安全五个常任理事国之一   委员会。

     

美国是联合国总部的所在地,   其中包括大会在新常会上的开会地点   约克市,安全理事会所在地和   联合国。美国是最大的金融提供国   对联合国的捐款,占联合国的22%   2017年整个联合国预算(相比之下,下一个最大的捐助国   日本几乎占了10%,而欧盟国家总共   高于30%)。1从2016年7月到2017年6月,占28.6%   维持和平行动所用预算是由联合国提供的   国家。2美国在建立   联合国。

1 个答案:

答案 0 :(得分:1)

此任务是 NER 任务,不是标准标记化任务。有一些插件可以通过弹性来做到这一点,但是没有一个有希望的。

要执行此操作,您需要在应用程序端预处理数据。使用NLP解析器(Standford Core NLP,Spacy ...)并提取命名实体。在映射中创建一个关键字字段(例如,将其称为实体),其中将从每个文档中提取的实体保存为数组,然后可以使用此字段生成词云。

祝你好运。