Question

我有很多对象组。每个对象都有简单的属性，如名称和描述。它们已经与类似的对象组合在一起，但我知道许多组都是冗余或以某种方式重叠。列表不包含重复的对象，顺序无关紧要。

有关如何根据相似度将它们减少到“n”组的任何建议？谢谢。

即字符串

["apple", "orange", "pear"]
["apple", "steak", "orange"]
["steak", "burger"]

前两个是最相似的粗略

Answer 1

也许你可以尝试设置一个矩阵，其中列数对应于数据集中不同单词的数量。行数是数据点的数量。然后，条目（i，j）是单词j出现在样本i中的次数。

一旦你有这个矩阵，那么任何常见的聚类算法都可以工作，你可以用你喜欢的任何方式定义相似性。