如何合并所有Dask数据帧分区

时间:2018-05-14 23:25:30

标签: python multiprocessing large-data dask

我想使用Dask Dataframe,我使用

    Sales = dd.read_csv('Sales.txt',blocksize=500000,
                     storage_options=dict(anon=True))

   Product = dd.read_csv('Product.txt')

我的两个文件,我合并了两个表

df = sales_location = Sales.merge(Product, how='left', on ='Key')

如果我不使用blocksize选项,销售文件是28M行,它不会进行分区,而且进程太长(甚至是df.head())但是如果我使用blocksize(超过1分区)然后进程是排序但没有所有文件,我只能看到部分数据。

所以我的问题是如何使进程更快并且包含所有文件。我想用Dask数据帧创建一个大的主文件,并制作用于分析的小数据帧。

0 个答案:

没有答案