应用错误收集

假设 x _i和 x _j是情况i和j的观察特征向量。然后，您可能知道，kNN基于|| x _i- x _j ||的距离，例如欧几里得语。

现在，如果 x _i和 x _j仅包含一个要素，则个体的身高以米为单位，我们很好，因为没有其他“竞争”功能。假设接下来我们将成千上万的年薪加起来。因此，我们观察向量（1.7，50000）和（1.8，100000）之间的距离。

然后，在欧几里德距离的情况下，薪水特征显然占主导地位，这就像我们仅在使用薪水特征一样。也就是说，

|| x _i- x _j || ₂≈| 50000-100000 |。

但是，如果两个功能实际上具有相似的重要性，那么我们做得不好。如果薪水实际上无关紧要，甚至更糟，我们应该单独使用身高。有趣的是，在较弱的条件下，即使在这种恶劣的情况下，我们的分类器仍然具有良好的属性，例如通用一致性。问题在于，在有限样本中，分类器的性能非常差，因此收敛速度很慢。

因此，为了解决这一问题，可能需要考虑不同的距离，以便对比例尺做一些事情。通常人们会标准化每个功能（将均值设置为零，将方差设置为1），但这也不是一个完整的解决方案。有多种建议可以解决（例如，参见here）。

另一方面，基于决策树的算法不受此影响。在这种情况下，我们只是寻找一个拆分变量的点。例如，如果薪水的取值为[0,100000]，且分红为40000，则薪金/ 10将被切为4000，这样结果就不会改变。