我正在使用包含数百个,有时数千个列的复杂数据集。其中许多是NaN,并且系统地如此(它们往往在零点展开的方式上高度相关)。这让我相信对NaNs的视觉检查是一个良好的开端。我能做到
dataframe.count()
获取每列中存在的值的数量,但我不知道它们的分布。
所以我想制作一个可视化地反映数据框布局的散点图,该点要么为NaN着色,要么留空以获得实际值。这样我就可以看到NaN的模式往往聚集在一起。不过,我不知道如何在matplotlib上做到这一点。
换句话说,我该如何绘制
dataframe.isnull()
在散点图中,X轴是标签,Y轴是索引?
另外,如果你知道检查"模式的任何其他方法"数据帧中的空值,请与我分享。谢谢!
答案 0 :(得分:1)
想出来!热图是我想要的
pcolor(df.isnull())
答案 1 :(得分:1)
如果你想要一个更像是"散点图的东西,它可以直观地反映数据框的布局"
您可以尝试matplotlib.pyplot.spy
import matplotlib.pyplot as plt
plt.spy(df.isnull())