如何查找pandas数据帧中是否存在错误值?

时间:2018-05-02 15:18:32

标签: python pandas dataframe

我是Python编码方面的新手,我正在处理实习的大数据框架。

我遇到了一个问题,因为我的数据框中有时会出现错误的值。例如,我找到字符串类型值("broken leaf")而不是整数类型值为("120 cm")或(NaN)。

我知道有df.replace()函数,但是你需要知道错误的值。那么我如何找到我的数据框中是否有任何错误的值?

提前谢谢

1 个答案:

答案 0 :(得分:0)

" 120厘米"是一个字符串,而不是一个整数,所以这是一个令人困惑的例子。一些方法可以找到"意外"价值包括:

使用"描述" 检查数值范围,看看是否有远远超出预期范围。

使用" unique" 查看您希望获得少量允许值的情况的所有值的集合,例如性别字段。

查看列的数据类型,看看是否有字符串爬进应该是数字的字段。

如果特定列的有效值遵循可预测的模式,则

使用regexps