我有很多对象组。每个对象都有简单的属性,如名称和描述。它们已经与类似的对象组合在一起,但我知道许多组都是冗余或以某种方式重叠。列表不包含重复的对象,顺序无关紧要。
有关如何根据相似度将它们减少到“n”组的任何建议?谢谢。
即字符串
["apple", "orange", "pear"]
["apple", "steak", "orange"]
["steak", "burger"]
前两个是最相似的粗略
答案 0 :(得分:0)
也许你可以尝试设置一个矩阵,其中列数对应于数据集中不同单词的数量。行数是数据点的数量。然后,条目(i,j)是单词j出现在样本i中的次数。
一旦你有这个矩阵,那么任何常见的聚类算法都可以工作,你可以用你喜欢的任何方式定义相似性。