应用错误收集

解析＆＃34; NA＆＃34;在pandas数据帧中读取时，条目为NaN值

时间：2017-08-30 23:15:26

标签： python pandas dataframe nan

我是熊猫的新手。我使用pandas.read_csv加载了csv。我试图不指定dtype但它太慢了。因为它是一个非常大的文件，我也指定了数据类型。但是，有时在数字列中，它包含＆＃34; NA＆＃34;。我使用了na_values = [＆＃39; NA＆＃39;]，它会影响我的数据框吗？我仍然想保留这些行。我的问题是，如果我指定数据类型并添加na_values = [＆＃39; NA＆＃39;]，NA会被抛弃吗？如果是的话，我怎样才能保持相似的处理时间而不会丢失这些na？非常感谢你！

1 个答案:

答案 0 :(得分：2)

来自pd.read_csv文档：

na_values：标量，str，list - 类似，或dict，默认None

附加   要识别为NA / NaN的字符串。如果dict通过，则每列特定NA   值。默认情况下，以下值被解释为NaN：''，   ...... 'NA'，......`。

大胆强调我的。这些值不会被抛弃，而是转换为NaN。熊猫非常聪明，可以自动识别这些值，而无需您明确说明。