有一个数据框,其中一列存储离散值,如下所示。我想创建另一个存储标准化值的列。例如,对于4050
,对应的条目将是4
。有什么有效的方法可以代替编写自己的函数吗?在Sklearn中,是否有任何函数可以生成标准化值?
答案 0 :(得分:0)
根据您的评论:
大约有20个不同的值,范围从1000到9999,所以我想使用每1000个作为一个类别
严格来说,这不是真正的规范化。但是,要做到这一点,您可以轻松地使用楼层分割(//
):
df['new_column'] = df['values']//1000
例如:
>>> df
values
0 2021
1 8093
2 9870
3 4508
4 2645
5 1441
6 8888
7 8921
8 7292
9 8571
df['new_column'] = df['values']//1000
>>> df
values new_column
0 2021 2
1 8093 8
2 9870 9
3 4508 4
4 2645 2
5 1441 1
6 8888 8
7 8921 8
8 7292 7
9 8571 8