我在elasticsearch中有文本字段,我想在kibana上可视化它的词云...
第一步,我们需要对它们进行标记化,我使用了“标准标记化器” ... 使用这种形式的词云可视化效果如下图所示:
但是我需要的是专有名词,例如“ United States”,“ United Nations”,“ Security Council”和...一定不能散开,我希望这样的词云: *专有名词或短语几乎在2-5个词之间。 (例如“中华人民共和国”)
我该怎么办? 这和N-Gram有关吗?
示例文本:
美利坚合众国是 联合国和联合国安全五个常任理事国之一 委员会。
美国是联合国总部的所在地, 其中包括大会在新常会上的开会地点 约克市,安全理事会所在地和 联合国。美国是最大的金融提供国 对联合国的捐款,占联合国的22% 2017年整个联合国预算(相比之下,下一个最大的捐助国 日本几乎占了10%,而欧盟国家总共 高于30%)。1从2016年7月到2017年6月,占28.6% 维持和平行动所用预算是由联合国提供的 国家。2美国在建立 联合国。
答案 0 :(得分:1)
此任务是 NER 任务,不是标准标记化任务。有一些插件可以通过弹性来做到这一点,但是没有一个有希望的。
要执行此操作,您需要在应用程序端预处理数据。使用NLP解析器(Standford Core NLP,Spacy ...)并提取命名实体。在映射中创建一个关键字字段(例如,将其称为实体),其中将从每个文档中提取的实体保存为数组,然后可以使用此字段生成词云。
祝你好运。