当我使用有效分区保存dask数据帧时,回读时不存在分区
df.divisions # ['a', 'b', 'c', ...]
df.to_parquet('frame.pq', engine=engine, write_index=True, compute=True)
df2 = dask.dataframe.read_parquet('frame.pq', engine='pyarrow')
df2.divisions # [None, None, ...]
我怎样才能在df2
中保留这些分区?
我需要
吗?df
?df2
?df2
后以某种方式恢复了分歧?根据@ mdurant在评论中的建议,我发现在使用engine ='fastparquet'
时会保留分歧。
不幸的是,fastparquet无法序列化我的数据。
当fastparquet没有时,为什么pyarrow会丢失分区信息。