减少重叠对象组的数量

时间:2017-09-04 01:24:37

标签: python algorithm statistics probability

我有很多对象组。每个对象都有简单的属性,如名称和描述。它们已经与类似的对象组合在一起,但我知道许多组都是冗余或以某种方式重叠。列表不包含重复的对象,顺序无关紧要。

有关如何根据相似度将它们减少到“n”组的任何建议?谢谢。

即字符串

["apple", "orange", "pear"]
["apple", "steak", "orange"]
["steak", "burger"]

前两个是最相似的粗略

1 个答案:

答案 0 :(得分:0)

也许你可以尝试设置一个矩阵,其中列数对应于数据集中不同单词的数量。行数是数据点的数量。然后,条目(i,j)是单词j出现在样本i中的次数。

一旦你有这个矩阵,那么任何常见的聚类算法都可以工作,你可以用你喜欢的任何方式定义相似性。