答案 0 :(得分:1)
假设 x i 和 x j 是情况i和j的观察特征向量。然后,您可能知道,kNN基于|| x i - x j ||的距离,例如欧几里得语。
现在,如果 x i 和 x j 仅包含一个要素,则个体的身高以米为单位,我们很好,因为没有其他“竞争”功能。假设接下来我们将成千上万的年薪加起来。因此,我们观察向量(1.7,50000)和(1.8,100000)之间的距离。
然后,在欧几里德距离的情况下,薪水特征显然占主导地位,这就像我们仅在使用薪水特征一样。也就是说,
|| x i - x j || 2 ≈| 50000-100000 |。
但是,如果两个功能实际上具有相似的重要性,那么我们做得不好。如果薪水实际上无关紧要,甚至更糟,我们应该单独使用身高。有趣的是,在较弱的条件下,即使在这种恶劣的情况下,我们的分类器仍然具有良好的属性,例如通用一致性。问题在于,在有限样本中,分类器的性能非常差,因此收敛速度很慢。
因此,为了解决这一问题,可能需要考虑不同的距离,以便对比例尺做一些事情。通常人们会标准化每个功能(将均值设置为零,将方差设置为1),但这也不是一个完整的解决方案。有多种建议可以解决(例如,参见here)。
另一方面,基于决策树的算法不受此影响。在这种情况下,我们只是寻找一个拆分变量的点。例如,如果薪水的取值为[0,100000],且分红为40000,则薪金/ 10将被切为4000,这样结果就不会改变。