标签: python string algorithm cluster-analysis
我有大约500000个字符串,我想将它们分组。是否有可以用来做这个的webportal或webservice?
字符串是唯一的。 我需要根据相似性将它们分组。
还有其他方法吗?
答案 0 :(得分:3)
如果您的意思是将字符串(单词)的lis聚类到相似性组中,您需要告诉您是否需要找到在相同聚类中出现类似编辑(Levenshtein)距离的单词。例如,你会说“算法”和“alogrithm”应该有很高的机会出现在同一个集群中。
现有技术建议使用像