我正在使用Pima糖尿病数据集,我想为葡萄糖字段创建垃圾箱。数据集位于:
https://www.kaggle.com/uciml/pima-indians-diabetes-database/download
根据这些教程:
https://www.qimacros.com/histogram-excel/how-to-determine-histogram-bin-interval/
该数据集有769个寄存器,因此我应该取该值的平方根给我大约27个二进制数。
然后用于计算垃圾箱宽度的公式如下:
装箱宽度=(最大-最小)/装箱数量
上面的公式给了我7的值,这意味着我的值就像0,7,14 ...依此类推。到目前为止,我编写的代码如下:
gBins=list(range(0,200,7))
gBins.append(199)
glC=pd.cut(f["Glucose"],gBins,labels=list(range(0,29)))
f["Glucose"]=glC
标签部分是因为gBins的长度是30,它说标签列表应该比长度少一个数字。我的问题是,当我将数据帧保存在一个csv文件中时,我发现有一些空白或NaN空格,为什么会发生这种情况?
有帮助吗?