对数据集中具有相同含义的不同输入文本进行分类-Python

时间:2018-11-08 10:52:08

标签: python-3.x

我是这个问题的新手,所以希望您了解问题所在。

我有一个包含许多列的数据集。每行都是由人工手动添加的,并且每个输入均以文本形式给出。 列之一是国家。让我们以英格兰为例:

  • 第1个人输入:“英国”。
  • 第2个人输入:“ uk”
  • 第3个人输入:“ eng”
  • 依此类推...

这将导致一列具有不同的国家名称,而意味着同一国家。我有36个不同的国家/地区,他们知道适合他们多少种文字。

是否有一种技术可以将不同的国家/地区文本分类为一个国家/地区,以便进行一些分析?

例如:

  • 第1个人输入:“英国”->“英国”
  • 第2个人输入:“ uk”->“英国”
  • 第3个人输入:“ eng”->“ England”
  • 第4个人输入:“ nl”->“荷兰”
  • 第5个人输入:“荷兰”->“荷兰”
  • 第6个人输入:“ ned”->“ Netherlands”

如果我的问题和/或问题不清楚,请告知我,以便我进一步说明。

最诚挚的问候

0 个答案:

没有答案