如何使用Dask将CSV拆分为多个CSV文件

时间:2019-04-30 16:50:28

标签: python dataframe dask dask-distributed

如何使用Dask将CSV文件拆分为多个文件?

波纹管代码似乎只写入一个文件,这需要很长时间才能写入完整文件。我相信写入多个文件会更快。

{{1}}

1 个答案:

答案 0 :(得分:2)

我怀疑当您阅读df时,您拥有df.npartitions就是1

import dask.dataframe as dd

file_path = "file_name.csv"
df = dd.read_csv(file_path)
# set how many file you would like to have
# in this case 10
df = df.repartition(npartitions=10)
df.to_csv("file_*.csv")

但是据我所知,它并不快。