是否有可能从python / pandas并行写入Parquet?

时间:2017-03-03 22:46:59

标签: python pandas parquet

Parquet文件格式允许数据分区。 还有一个最近提供python实现的项目fastparquet。问题是,如果我在两个单独的python进程中有两个具有相同模式的数据帧,是否有可能将它们并行存储在两个独立的镶木地板文件中?

2 个答案:

答案 0 :(得分:1)

有。

  • 可以单独使用fastparquet(使用merge()函数来读取单独写入的数据帧)。
  • dask to_parquet()也可以在引擎盖下使用fastparquet。

答案 1 :(得分:0)

使用Dask,PySpark和Koalas可以很容易地并行编写Parquet文件。

如果将多个内核配置为并行写入文件,则PyArrow也有可能。

既然Arrow已发布1.0版本,我建议在fastparquet上使用PyArrow。