我有一组句子(每个句子= x的行数,其中x属于范围(1,6))。我想根据它们之间的相似性将这些句子分组。我已经尝试过模糊wuzzy.token_set_ration,但是我遇到的麻烦是我需要给它两个句子,但是如果集合包含例如,我确实想遍历集合中所有句子的组合。 10k句子。如何明智地对数据进行分组?是否有诸如聚类的方法来解决此问题? (我可以有9500个类似的句子。
示例:
AAA Limited
AAA Ltd
AAA
Google
Gogle
Googlee
Facebook
Alphabet
Alpfabet
etc
答案 0 :(得分:0)
“聚类”可能会使您误入歧途。
您似乎要寻找的是拼写更正。您想要合并拼写错误的版本,为此,最佳策略通常是将字符串转换为“语音”版本(以查找“声音”易于混合的字符串,如您的Alphabet示例!),以及看似将所有字母排序并删除重复字母的愚蠢方法-然后Google和Goolge以及Goglee和Googlee都变成“ eglo”并且可以匹配。
但是我怀疑您会发现自动运行可靠的任何东西,而是准备需要人工干预的事情。 (在上述匹配中,Lego也将成为eglo,因此也将与Google匹配。也许最好保留第一个字母,仅将其应用于其余字母。)