应用错误收集

我正在集中列出类似公司名称的列表（例如，将'Google Inc.'作为'Google Switzerland AG'，'Google Ventures Ltd.'，'Google France SA'等的榜样），并且已经确定了具有Jaccard相似性的亲和传播作为成对相似性度量，这提供了迄今为止的良好结果。

但问题是，亲和力传播会返回“全面”（不确定这是否是正确的术语）群集;每个数据点都与一个范例相关联。这导致一些不太接近的匹配与示例相关联（例如，即使“Apple”不接近任何其他公司名称，“Apple”仍将对应于示例。

从视觉上看，我想要完成的工作类似于排除此示例中最远的数据点：

enter link description here

这样做的最佳方法是什么？我应该在每个示例/示例集中重新运行Jaccard相似性并排除不良匹配吗？

修剪亲和力传播聚类中的最小匹配匹配

0 个答案: