使用亲和力传播聚类相似的文本并创建聚类图

时间:2018-06-18 10:42:48

标签: python string text cluster-analysis

我根据相似性列出了要聚类的大学。例如,这个字符串“墨尔本大学”和这个字符串“Meelbourne大学”是相同的,但有拼写错误。

我想使用Affinity Propagation(Scikit Learn)技术将这些相似的字符串组合在一起。在SciKit上应用Affinity Propagation之前,我是否需要首先使用Word2VEC转换字符串?

是否有一个很好的教程可以告诉我如何实现这个目标?

1 个答案:

答案 0 :(得分:0)

不要滥用群集进行拼写纠正!

Word2vec无效。

它的词汇中没有“Meelbourne”,因为这是一个罕见的拼写错误。所以它会忽略这个词!对于BOW方法,它也没有帮助。

这不是群集可以解决的问题。改为使用拼写纠正器。