标签: python pandas parquet
Parquet文件格式允许数据分区。 还有一个最近提供python实现的项目fastparquet。问题是,如果我在两个单独的python进程中有两个具有相同模式的数据帧,是否有可能将它们并行存储在两个独立的镶木地板文件中?
fastparquet
答案 0 :(得分:1)
有。
merge()
dask
to_parquet()
答案 1 :(得分:0)
使用Dask,PySpark和Koalas可以很容易地并行编写Parquet文件。
如果将多个内核配置为并行写入文件,则PyArrow也有可能。
既然Arrow已发布1.0版本,我建议在fastparquet上使用PyArrow。