在Python中将数据集标准化为分位数

时间:2018-04-23 02:44:43

标签: python machine-learning normalization preprocessor

我想将我的数据集标准化,作为机器学习算法预处理的一部分。有没有办法使用现有的包(比如sklearn.preprocessing)将数据放入存储桶。我已经找到了QuantileTransformer,但是我把所有的观察结果都调到0到1的范围内。我希望我的所有观察结果都取决于离散值,比如1到5,基于它们的分布,即第一个桶中的前20%,第二个20第二桶等的%。也许是QuantileTransformer和pandas.qcut的一些组合?

编辑:对于我未来的自我谁将谷歌这个问题并最终在这里,这是有效的:

 df2=pd.qcut(df1['var1'],5, labels=False)

0 个答案:

没有答案