执行密集的合并操作时,确保dask不会耗尽磁盘空间

时间:2018-07-08 00:22:15

标签: pandas dask

我有两个大文件(镶木地板格式分别为9和30 gb),我想使用dask在索引上进行外部联接。但是,当我尝试这样做并写入一组新的csv文件时,我的机器用完了磁盘空间,因此,在将任何合并的数据写入磁盘之前,dask工作程序将被杀死。重新分区或写入实木复合地板似乎无法解决该问题。我如何确保dask不会尝试尽可能多地获取磁盘空间来进行合并和写入操作?

0 个答案:

没有答案