我想使用Dask Dataframe,我使用
Sales = dd.read_csv('Sales.txt',blocksize=500000,
storage_options=dict(anon=True))
Product = dd.read_csv('Product.txt')
我的两个文件,我合并了两个表
df = sales_location = Sales.merge(Product, how='left', on ='Key')
如果我不使用blocksize
选项,销售文件是28M行,它不会进行分区,而且进程太长(甚至是df.head())但是如果我使用blocksize
(超过1分区)然后进程是排序但没有所有文件,我只能看到部分数据。
所以我的问题是如何使进程更快并且包含所有文件。我想用Dask数据帧创建一个大的主文件,并制作用于分析的小数据帧。