用于机器学习的浮点数的pandas.get_dummies

时间:2018-06-01 23:43:12

标签: python pandas

我有一些熊猫数据框形式的数据,其中包含水彩(字符串),地方(字符串),温度(浮动)列。

我想使用一个热门编码将数据转换为类别

color: darkblue, lightblue, teal
        1           0        0
        0           1        0

对于字符串来说没问题,但如何设置温度的间隔(浮点数)?

我试着写:

output = pd.get_dummies(df.astype(str))

问题是所有唯一的浮点值都会变成一个单独的类别,如:

temperature:   37,6 37,7  37,9  38
                0     1    0     0
                1     0    0     0

这意味着我的程序会过度拟合数据,因为所有温度都会变成单独的类别。我想指定第三列的间隔(温度)。所以我想对所有的值进行分组,例如37,5-39和39-41,5,等等。

1 个答案:

答案 0 :(得分:0)

在创建虚拟列

之前尝试使用cut
pd.cut(df['temperature'], [37.5, 39, 41,.....], labels=['37.5-39', '39-41',.....])