特征缩放及其对各种算法的影响

时间:2017-12-29 19:27:11

标签: python-3.x machine-learning scikit-learn feature-selection

尽管经历了许多与此相关的类似问题,我仍然无法理解为什么某些算法容易受到影响,而其他算法则不然。

到目前为止,我发现SVM和K-means易受特征缩放的影响,而线性回归和决策树则不然。有人请详细说明为什么?通常或与此4算法有关。

由于我是初学者,请以外行的方式解释。

1 个答案:

答案 0 :(得分:2)

我可以想到的一个原因是SVM和K-means,至少在基本配置中,使用L2距离度量。例如,如果将delta-x或delta-y加倍,则两点之间的L1或L2距离度量将得到不同的结果。

使用线性回归,您可以通过在进行测量之前有效地变换坐标系来拟合线性变换以最佳地描述数据。由于最佳模型无论数据的坐标系是否相同,因此根据定义,您的结果将对包括特征缩放在内的任何线性变换都不变。

使用决策树,您通常会查找x<格式的规则。 N,其中唯一重要的细节是有多少项通过或未通过给定的阈值测试 - 您将其传递给您的熵函数。由于此规则格式不依赖于维度比例,因为没有连续距离度量标准,我们再次具有方差。

每种原因都有些不同,但我希望有所帮助。