应用错误收集

我在elasticsearch中有文本字段，我想在kibana上可视化它的词云...

第一步，我们需要对它们进行标记化，我使用了“标准标记化器” ... 使用这种形式的词云可视化效果如下图所示：

但是我需要的是专有名词，例如“ United States”，“ United Nations”，“ Security Council”和...一定不能散开，我希望这样的词云： *专有名词或短语几乎在2-5个词之间。（例如“中华人民共和国”）

我该怎么办？这和N-Gram有关吗？

示例文本：

美利坚合众国是   联合国和联合国安全五个常任理事国之一   委员会。

美国是联合国总部的所在地，   其中包括大会在新常会上的开会地点   约克市，安全理事会所在地和   联合国。美国是最大的金融提供国   对联合国的捐款，占联合国的22％   2017年整个联合国预算（相比之下，下一个最大的捐助国   日本几乎占了10％，而欧盟国家总共   高于30％）。1从2016年7月到2017年6月，占28.6％   维持和平行动所用预算是由联合国提供的   国家。2美国在建立   联合国。

“美国”不是[“美国”，“州”]

1 个答案: