当列没有值时,熊猫CSV到Parquet数据类型设置不正确

时间:2018-09-14 15:00:09

标签: python pandas csv parquet pyarrow

我正在使用pandas数据框read_csv函数,并且列有时不包含任何值。在这种情况下,将忽略使用 dtype 参数发送的数据类型。

import pandas as pd
df = pd.read_csv("example.csv", dtype={"col1": "str", "col2": "float", "col3": "str"})
df.to_parquet("example.parquet")

这是我使用的CSV文件:

col1,col2,col3
A,1,
B,2,
C,3,

我希望col3是实木复合地板文件中的类型,而不是INT32

1 个答案:

答案 0 :(得分:0)

请尝试以下代码,以避免在列没有值的情况下出错。

import pandas as pd
df = pd.read_csv("example.csv", dtype={"col1": "str", "col2": "float", "col3": "str"}).fillna('')
df.to_parquet("example.parquet")