我有一些熊猫数据框形式的数据,其中包含水彩(字符串),地方(字符串),温度(浮动)列。
我想使用一个热门编码将数据转换为类别
color: darkblue, lightblue, teal
1 0 0
0 1 0
对于字符串来说没问题,但如何设置温度的间隔(浮点数)?
我试着写:
output = pd.get_dummies(df.astype(str))
问题是所有唯一的浮点值都会变成一个单独的类别,如:
temperature: 37,6 37,7 37,9 38
0 1 0 0
1 0 0 0
这意味着我的程序会过度拟合数据,因为所有温度都会变成单独的类别。我想指定第三列的间隔(温度)。所以我想对所有的值进行分组,例如37,5-39和39-41,5,等等。
答案 0 :(得分:0)
在创建虚拟列
之前尝试使用cut
pd.cut(df['temperature'], [37.5, 39, 41,.....], labels=['37.5-39', '39-41',.....])