加载CSV时,熊猫保持“ null”和“”

时间:2019-04-05 14:31:42

标签: python pandas isnull

我有一个奇怪的CSV,它的值是“ null”,还有一个空单元格。

所以我的行是这样的:

null,0,0,0,1,,,,0,0,0,null

除了读取和重写文件外,我什么也不做:

f = pd.read_csv(input_file,sep=',', quotechar='"', engine='python', converters={i: str for i in range(0, 155)})
f.to_csv(output_file, sep=',', escapechar=' ', quotechar='"', quoting=csv.QUOTE_MINIMAL, index=False)

以上技术上是“重命名”文件,但这是为了证明我为整个文件获得了相同的值,后来我将修剪某些列(我已经这样做了,但发现数据是错误的) 。

那么,如何在不读取每个行/列的情况下保留“ null”和“”,并创建一个检查每个单元格的函数呢?

那有可能吗?

我尝试了na_rep =“ null”,但随后所有的''都将转换为'null',或者如果我将其删除,则会丢失'null'值。

1 个答案:

答案 0 :(得分:2)

要完全忽略对NaN值的处理,可以将na_filter=False参数传递给read_csv方法:

f = (pd.read_csv(input_file,sep=',',
                 quotechar='"',
                 engine='python',
                 converters={i: str for i in range(0, 155)},
                 na_filter=False))

或者,如果您需要对值的处理方式进行更多控制,则可以排除默认值,并传递自己的na_values列表。例如:

f = (pd.read_csv(input_file,sep=',',
                 quotechar='"',
                 engine='python',
                 converters={i: str for i in range(0, 155)},
                 na_values=['nan', 'NaN'],
                 keep_default_na=False))

将自动强制为NaN的默认值是

default_na_values = ['', '#N/A', '#N/A N/A', '#NA', '-1.#IND', '-1.#QNAN', '-NaN', '-nan',
                     '1.#IND', '1.#QNAN', 'N/A', 'NA', 'NULL', 'NaN', 'n/a', 'nan', 'null']