我正在Pandas中测试cut
方法,以将连续变量(年龄)转换为离散的垃圾箱(年龄组)。为了使该方法可在任何年龄范围甚至其他连续变量中都可重现,我想将age
转换为百分比。因此,我以升序对数据帧进行了排序,计算出了累积总和(cumsum
),然后将其转换为percent cumsum
。接下来,我pd.cut
的百分比总和列的箱数为[0,20,40,60,80,100]
,并添加标签。
pd.cut
将age变量分成5个bin,并正确标记它们,最后一个age值除外,该值的百分比总和为100。我什至将可选的right
参数设置为{{ 1}},但是不知何故,最后一个数据点仍未归类为任何bin,其标签显示为True
。
nan
我在做什么错?