PyArrow / Dask to_parquet分区所有空列

时间:2019-09-16 19:38:46

标签: python dask parquet pyarrow

在将Dask数据帧分区写入Parquet时,我注意到在元数据/模式冲突时read_parquet失败。这是因为在某些分区中的列完全为null / np.nan,而在另一些分区中,则使用值填充。

之前,我已经转换了分区的数据类型:

df = df.astype(dtypes)

PyArrow无法读取我的分区Parquet文件,因为只有空值的列被重新分配了数据类型'null'。我该如何解决这个问题?一些分区的列全为空,而另一些分区并不完全为空。

列的数据类型为整数,浮点数或字符串(对象)。

1 个答案:

答案 0 :(得分:0)

我建议在Dask或Arrow问题跟踪器上提出问题