Question

前向填充方法会覆盖原始文件中的“NA”值。有什么方法可以直接处理“NA”，而不是在读取文件时将其转换为NaN？

!wget https://s3.amazonaws.com/datameetgeo/sample.txt

import pandas as pd
df=pd.read_csv('sample.txt', sep='\t')
df=df.fillna(method='ffill')

从上面的例子中可以看出，“C-54465”的值被转移到下一个大学代码954.这是错误的，应该限制在前22行。是否有任何方法可以控制ffill的工作方式或读取时如何处理“NA”值？

Answer 1

默认情况下pd.read_csv将NA解释为null。您可以使用参数keep_default_na=False

关闭此功能

pd.read_csv('sample.txt', sep='\t', keep_default_na=False)