应用错误收集

我想将我的数据集标准化，作为机器学习算法预处理的一部分。有没有办法使用现有的包（比如sklearn.preprocessing）将数据放入存储桶。我已经找到了QuantileTransformer，但是我把所有的观察结果都调到0到1的范围内。我希望我的所有观察结果都取决于离散值，比如1到5，基于它们的分布，即第一个桶中的前20％，第二个20第二桶等的％。也许是QuantileTransformer和pandas.qcut的一些组合？

编辑：对于我未来的自我谁将谷歌这个问题并最终在这里，这是有效的：

 df2=pd.qcut(df1['var1'],5, labels=False)

在Python中将数据集标准化为分位数

0 个答案: