在镶木地板中保留dask数据帧划分

时间:2018-01-04 22:11:26

标签: dataframe parquet dask pyarrow

当我使用有效分区保存dask数据帧时,回读时不存在分区

df.divisions # ['a', 'b', 'c', ...]
df.to_parquet('frame.pq', engine=engine, write_index=True, compute=True)
df2 = dask.dataframe.read_parquet('frame.pq', engine='pyarrow')
df2.divisions # [None, None, ...]

我怎样才能在df2中保留这些分区?

我需要

吗?
  • 以不同方式保存df
  • 以不同方式阅读df2
  • 在阅读df2后以某种方式恢复了分歧?

根据@ mdurant在评论中的建议,我发现在使用engine ='fastparquet'时会保留分歧。 不幸的是,fastparquet无法序列化我的数据。

当fastparquet没有时,为什么pyarrow会丢失分区信息。

0 个答案:

没有答案