我是Python编码方面的新手,我正在处理实习的大数据框架。
我遇到了一个问题,因为我的数据框中有时会出现错误的值。例如,我找到字符串类型值("broken leaf"
)而不是整数类型值为("120 cm"
)或(NaN
)。
我知道有df.replace()
函数,但是你需要知道错误的值。那么我如何找到我的数据框中是否有任何错误的值?
提前谢谢
答案 0 :(得分:0)
" 120厘米"是一个字符串,而不是一个整数,所以这是一个令人困惑的例子。一些方法可以找到"意外"价值包括:
使用"描述" 检查数值范围,看看是否有远远超出预期范围。
使用" unique" 查看您希望获得少量允许值的情况的所有值的集合,例如性别字段。
查看列的数据类型,看看是否有字符串爬进应该是数字的字段。
如果特定列的有效值遵循可预测的模式,则使用regexps 。