修剪亲和力传播聚类中的最小匹配匹配

时间:2016-09-06 18:19:42

标签: python machine-learning nlp scikit-learn cluster-analysis

我正在集中列出类似公司名称的列表(例如,将'Google Inc.'作为'Google Switzerland AG','Google Ventures Ltd.','Google France SA'等的榜样),并且已经确定了具有Jaccard相似性的亲和传播作为成对相似性度量,这提供了迄今为止的良好结果。

但问题是,亲和力传播会返回“全面”(不确定这是否是正确的术语)群集;每个数据点都与一个范例相关联。这导致一些不太接近的匹配与示例相关联(例如,即使“Apple”不接近任何其他公司名称,“Apple”仍将对应于示例。

从视觉上看,我想要完成的工作类似于排除此示例中最远的数据点:

enter link description here

这样做的最佳方法是什么?我应该在每个示例/示例集中重新运行Jaccard相似性并排除不良匹配吗?

0 个答案:

没有答案