如何用数值数据制作垃圾箱?

时间:2019-10-13 20:44:08

标签: python pandas

我正在使用Pima糖尿病数据集,我想为葡萄糖字段创建垃圾箱。数据集位于:

https://www.kaggle.com/uciml/pima-indians-diabetes-database/download

根据这些教程:

https://www.qimacros.com/histogram-excel/how-to-determine-histogram-bin-interval/

该数据集有769个寄存器,因此我应该取该值的平方根给我大约27个二进制数。

然后用于计算垃圾箱宽度的公式如下:

装箱宽度=(最大-最小)/装箱数量

上面的公式给了我7的值,这意味着我的值就像0,7,14 ...依此类推。到目前为止,我编写的代码如下:

    gBins=list(range(0,200,7))
    gBins.append(199)
    glC=pd.cut(f["Glucose"],gBins,labels=list(range(0,29)))
    f["Glucose"]=glC

标签部分是因为gBins的长度是30,它说标签列表应该比长度少一个数字。我的问题是,当我将数据帧保存在一个csv文件中时,我发现有一些空白或NaN空格,为什么会发生这种情况?

有帮助吗?

0 个答案:

没有答案