正确缩放机器学习功能

时间:2020-06-23 16:15:14

标签: python machine-learning scikit-learn logistic-regression

我的数据框包含三种功能:

  1. 观察范围从0到100的特征
  2. 观测值编码为0或1(0表示否,1表示是)的功能
  3. 具有1到5的观察值的特征(一个人对一个问题的回答是1强烈不同意,5强烈同意)

我可以仅将StandardScaler应用于数据框,所有功能都将正确缩放吗?还是我的数据框中的每种不同类型的功能都需要特定的缩放方法?

1 个答案:

答案 0 :(得分:0)

MPAndroid缩放数据,以使每一列的μ= 0和σ=1。根据documentation

对每个要素独立进行居中和缩放 计算训练集中样本的相关统计信息。

由于每个要素均独立于其他要素进行缩放,因此它们的相关大小差异不会相互掩盖。值得注意的是,缩放比例在很大程度上取决于每个功能的训练样本的分布。标准的正态分布训练数据将导致完美的缩放。为了进一步理解,您可以阅读documentation,另请参阅this SO thread

样本数据按以下代码缩放:

Widget

输出为:

StandardScaler