如何使用Dask将CSV文件拆分为多个文件?
波纹管代码似乎只写入一个文件,这需要很长时间才能写入完整文件。我相信写入多个文件会更快。
{{1}}
答案 0 :(得分:2)
我怀疑当您阅读df
时,您拥有df.npartitions
就是1
。
import dask.dataframe as dd
file_path = "file_name.csv"
df = dd.read_csv(file_path)
# set how many file you would like to have
# in this case 10
df = df.repartition(npartitions=10)
df.to_csv("file_*.csv")
但是据我所知,它并不快。