应用错误收集

对数据集中具有相同含义的不同输入文本进行分类-Python

时间：2018-11-08 10:52:08

标签： python-3.x

我是这个问题的新手，所以希望您了解问题所在。

我有一个包含许多列的数据集。每行都是由人工手动添加的，并且每个输入均以文本形式给出。列之一是国家。让我们以英格兰为例：

第1个人输入：“英国”。
第2个人输入：“ uk”
第3个人输入：“ eng”
依此类推...

这将导致一列具有不同的国家名称，而意味着同一国家。我有36个不同的国家/地区，他们知道适合他们多少种文字。

是否有一种技术可以将不同的国家/地区文本分类为一个国家/地区，以便进行一些分析？

例如：

第1个人输入：“英国”->“英国”
第2个人输入：“ uk”->“英国”
第3个人输入：“ eng”->“ England”
第4个人输入：“ nl”->“荷兰”
第5个人输入：“荷兰”->“荷兰”
第6个人输入：“ ned”->“ Netherlands”

如果我的问题和/或问题不清楚，请告知我，以便我进一步说明。

最诚挚的问候

0 个答案:

没有答案