我是熊猫的新手。我使用pandas.read_csv加载了csv。我试图不指定dtype但它太慢了。因为它是一个非常大的文件,我也指定了数据类型。但是,有时在数字列中,它包含" NA"。我使用了na_values = [' NA'],它会影响我的数据框吗?我仍然想保留这些行。我的问题是,如果我指定数据类型并添加na_values = [' NA'],NA会被抛弃吗?如果是的话,我怎样才能保持相似的处理时间而不会丢失这些na?非常感谢你!
答案 0 :(得分:2)
来自pd.read_csv
文档:
na_values
:标量,str
,list
- 类似,或dict
,默认None
附加 要识别为
NA
/NaN
的字符串。如果dict
通过,则每列特定NA 值。默认情况下,以下值被解释为NaN:'', ...... 'NA',......`。
大胆强调我的。这些值不会被抛弃,而是转换为NaN
。熊猫非常聪明,可以自动识别这些值,而无需您明确说明。