我正在集中列出类似公司名称的列表(例如,将'Google Inc.'作为'Google Switzerland AG','Google Ventures Ltd.','Google France SA'等的榜样),并且已经确定了具有Jaccard相似性的亲和传播作为成对相似性度量,这提供了迄今为止的良好结果。
但问题是,亲和力传播会返回“全面”(不确定这是否是正确的术语)群集;每个数据点都与一个范例相关联。这导致一些不太接近的匹配与示例相关联(例如,即使“Apple”不接近任何其他公司名称,“Apple”仍将对应于示例。
从视觉上看,我想要完成的工作类似于排除此示例中最远的数据点:
这样做的最佳方法是什么?我应该在每个示例/示例集中重新运行Jaccard相似性并排除不良匹配吗?