在数据集中查找缺失值

时间:2019-07-14 16:24:57

标签: machine-learning

我只想在一个问题上得到您的帮助,关于我如何知道大数据集中存在缺失值,即哪些列具有缺失值而哪些列没有缺失?

2 个答案:

答案 0 :(得分:0)

这完全取决于数据集的存储方式(如果它是静止的磁盘文件),或者可以通过什么接口(SQL,图形查询等)访问。

如果它是CSV,HDF,Octave / Matlab矩阵之类的“普通文件”,请使用您喜欢的脚本工具来迭代行并检查是否缺少值。如果是SQL转储,则可以将其加载到SQLite或sql服务器中,然后选择缺少的值。您甚至可以使用SQL解析器直接报告SQL转储中的缺失值,因为实际上不需要将其持久化到数据库中。

如果它是API背后的实时数据,则可以使用api查询数据中缺少的值-如果api支持此类查询。否则,请使用api导出(转储)整个数据集,并如上段所述在静态时对其进行查询。如果数据集没有允许查找丢失数据的索引,那么您将期望查询花费很长时间,并且可能会对提供数据的服务产生性能影响–谨慎行事并了解您所要处理的确切结果重新做。

答案 1 :(得分:0)

这给出了每列缺失值的数量。使用您的熊猫数据框,而不要使用train

train.isnull().sum() 

否则,您可以使用train.info()train.describe()来获取完整的信息或数据描述,这些信息或描述还会在每一列中显示缺失的值。