文本聚类/ NLP

时间:2018-11-15 07:22:57

标签: python machine-learning nlp text-classification

想象一下,数据集中有一列代表大学。我们需要对值进行分类,即分类后的组数应与实际大学数尽可能相等。问题是同一所大学的命名可能不同。例如:斯坦福大学=斯坦福大学=斯坦福大学。 Python 3中是否有某些NLP方法/函数/解决方案?

让我们考虑两种情况:数据既可以标记也可以不标记。

谢谢。

1 个答案:

答案 0 :(得分:2)

一种非常简单的无监督方法是使用基于k均值的方法。这样做的好处是,由于您事先知道大学的数量,因此您可以确切地知道期望的集群数(k)。

然后,您可以使用诸如scikit-learn之类的包来创建特征向量(最可能的情况是使用带有分析器= char选项的Countvectorizer使用n-gram字符),并且可以使用聚类来将写得相似的大学分组。

不能保证组会完全匹配,但我认为,只要不同的拼写有些相似,它应该可以很好地工作。