什么是距离敏感数据与其他数据有何不同?任何示例都会有帮助

时间:2018-11-07 09:55:35

标签: machine-learning classification knn

我正在阅读有关分类算法KNN的文章,并遇到了一个术语“距离敏感数据”。我无法确定什么是距离敏感数据,究竟是什么分类,如何说我们的数据是否是距离敏感数据?

1 个答案:

答案 0 :(得分:1)

假设 x i x j 是情况i和j的观察特征向量。然后,您可能知道,kNN基于|| x i - x j ||的距离,例如欧几里得语。

现在,如果 x i x j 仅包含一个要素,则个体的身高以米为单位,我们很好,因为没有其他“竞争”功能。假设接下来我们将成千上万的年薪加起来。因此,我们观察向量(1.7,50000)和(1.8,100000)之间的距离。

然后,在欧几里德距离的情况下,薪水特征显然占主导地位,这就像我们仅在使用薪水特征一样。也就是说,

|| x i - x j || 2 ≈| 50000-100000 |。

但是,如果两个功能实际上具有相似的重要性,那么我们做得不好。如果薪水实际上无关紧要,甚至更糟,我们应该单独使用身高。有趣的是,在较弱的条件下,即使在这种恶劣的情况下,我们的分类器仍然具有良好的属性,例如通用一致性。问题在于,在有限样本中,分类器的性能非常差,因此收敛速度很慢。

因此,为了解决这一问题,可能需要考虑不同的距离,以便对比例尺做一些事情。通常人们会标准化每个功能(将均值设置为零,将方差设置为1),但这也不是一个完整的解决方案。有多种建议可以解决(例如,参见here)。

另一方面,基于决策树的算法不受此影响。在这种情况下,我们只是寻找一个拆分变量的点。例如,如果薪水的取值为[0,100000],且分红为40000,则薪金/ 10将被切为4000,这样结果就不会改变。