我有2个数据集D和D',其中D'是D的略微扰动的版本。假设我有一个数据点P的前K个最近邻,D表示L1,相应的列表来自D'(顶部) D'中与P最近的K表示L2。有哪些方法可以比较L1和L2的相似性。
我知道以下方法:
- Jaccard相似性 - 这似乎太基本了,因为它没有考虑到实际距离这个事实,即除了一些邻居被推出之外,这两个数据集中或多或少地保持了邻域的事实。尽管他们可能仍然相当接近,但是顶级K.
- 使用“比较前K个列表”论文中提出的指标(如最小化Kendall Tau)。这个似乎是合理的,但我认为它太通用了,再次忽略了距离(仅关注排名)
- 使用以上的加权版本,或许使用距离作为权重。
- NDCG(通常用于评估搜索结果的相关性)
醇>
我正在寻找的是两个列表之间的距离度量,它考虑了项目以及它们的实际距离。是否有关于此主题的任何文献或我不知道的任何指标。本领域的研究人员使用了哪些其他技术,特别是如果您想评估最近邻结果的稳定性。