我根据相似性列出了要聚类的大学。例如,这个字符串“墨尔本大学”和这个字符串“Meelbourne大学”是相同的,但有拼写错误。
我想使用Affinity Propagation(Scikit Learn)技术将这些相似的字符串组合在一起。在SciKit上应用Affinity Propagation之前,我是否需要首先使用Word2VEC转换字符串?
是否有一个很好的教程可以告诉我如何实现这个目标?
答案 0 :(得分:0)
不要滥用群集进行拼写纠正!
它的词汇中没有“Meelbourne”,因为这是一个罕见的拼写错误。所以它会忽略这个词!对于BOW方法,它也没有帮助。
这不是群集可以解决的问题。改为使用拼写纠正器。