生成用于特征工程的归一化离散值

时间:2018-08-13 21:45:37

标签: python-3.x pandas numpy scikit-learn sklearn-pandas

有一个数据框,其中一列存储离散值,如下所示。我想创建另一个存储标准化值的列。例如,对于4050,对应的条目将是4。有什么有效的方法可以代替编写自己的函数吗?在Sklearn中,是否有任何函数可以生成标准化值?

enter image description here

1 个答案:

答案 0 :(得分:0)

根据您的评论:

  

大约有20个不同的值,范围从1000到9999,所以我想使用每1000个作为一个类别

严格来说,这不是真正的规范化。但是,要做到这一点,您可以轻松地使用楼层分割(//):

df['new_column'] = df['values']//1000

例如:

>>> df
   values
0    2021
1    8093
2    9870
3    4508
4    2645
5    1441
6    8888
7    8921
8    7292
9    8571

df['new_column'] = df['values']//1000

>>> df
   values  new_column
0    2021           2
1    8093           8
2    9870           9
3    4508           4
4    2645           2
5    1441           1
6    8888           8
7    8921           8
8    7292           7
9    8571           8