在Pandas数据框中直观地检查NaN

时间:2014-06-22 20:20:05

标签: python matplotlib pandas

我正在使用包含数百个,有时数千个列的复杂数据集。其中许多是NaN,并且系统地如此(它们往往在零点展开的方式上高度相关)。这让我相信对NaNs的视觉检查是一个良好的开端。我能做到

dataframe.count()

获取每列中存在的值的数量,但我不知道它们的分布。

所以我想制作一个可视化地反映数据框布局的散点图,该点要么为NaN着色,要么留空以获得实际值。这样我就可以看到NaN的模式往往聚集在一起。不过,我不知道如何在matplotlib上做到这一点。

换句话说,我该如何绘制

dataframe.isnull()

在散点图中,X轴是标签,Y轴是索引?

另外,如果你知道检查"模式的任何其他方法"数据帧中的空值,请与我分享。谢谢!

2 个答案:

答案 0 :(得分:1)

想出来!热图是我想要的

pcolor(df.isnull())

答案 1 :(得分:1)

如果你想要一个更像是"散点图的东西,它可以直观地反映数据框的布局"

您可以尝试matplotlib.pyplot.spy

import matplotlib.pyplot as plt
plt.spy(df.isnull())