Question

我有一组句子（每个句子= x的行数，其中x属于范围（1,6））。我想根据它们之间的相似性将这些句子分组。我已经尝试过模糊wuzzy.token_set_ration，但是我遇到的麻烦是我需要给它两个句子，但是如果集合包含例如，我确实想遍历集合中所有句子的组合。 10k句子。如何明智地对数据进行分组？是否有诸如聚类的方法来解决此问题？（我可以有9500个类似的句子。

示例：

AAA Limited
AAA Ltd
AAA
Google
Gogle
Googlee
Facebook
Alphabet
Alpfabet
etc

Answer 1

“聚类”可能会使您误入歧途。

您似乎要寻找的是拼写更正。您想要合并拼写错误的版本，为此，最佳策略通常是将字符串转换为“语音”版本（以查找“声音”易于混合的字符串，如您的Alphabet示例！），以及看似将所有字母排序并删除重复字母的愚蠢方法-然后Google和Goolge以及Goglee和Googlee都变成“ eglo”并且可以匹配。

但是我怀疑您会发现自动运行可靠的任何东西，而是准备需要人工干预的事情。（在上述匹配中，Lego也将成为eglo，因此也将与Google匹配。也许最好保留第一个字母，仅将其应用于其余字母。）

将一组字符串句子聚类为未知数量的组

1 个答案: