在将Dask数据帧分区写入Parquet时,我注意到在元数据/模式冲突时read_parquet失败。这是因为在某些分区中的列完全为null / np.nan,而在另一些分区中,则使用值填充。
之前,我已经转换了分区的数据类型:
df = df.astype(dtypes)
PyArrow无法读取我的分区Parquet文件,因为只有空值的列被重新分配了数据类型'null'。我该如何解决这个问题?一些分区的列全为空,而另一些分区并不完全为空。
列的数据类型为整数,浮点数或字符串(对象)。
答案 0 :(得分:0)
我建议在Dask或Arrow问题跟踪器上提出问题