如何在不使用hdfs的情况下并行计算每个工作程序上的csv文件存储?

时间:2019-10-17 07:18:31

标签: dask dask-delayed

与hadoop上的数据本地化相同的概念,但是我不想使用hdfs。

我有3个达人工人。

我想计算一个很大的csv文件名,例如mydata.csv。

我将mydata.csv拆分为一个小文件(mydata_part_001.csv ... mydata_part_100.csv),并将其存储在每个工作程序的本地文件夹/ data中 例如

worker-01将mydata_part_001.csv-mydata_part_030.csv存储在本地文件夹/ data中

worker-02将mydata_part_031.csv-mydata_part_060.csv存储在本地文件夹/ data中

worker-03将mydata_part_061.csv-mydata_part_100.csv存储在本地文件夹/ data中

如何对mydata使用dask运算? 谢谢。

1 个答案:

答案 0 :(得分:0)

更常见的是使用某种可全局访问的文件系统。 HDFS是这种情况的一个示例,但是还存在其他几种网络文件系统(NFS)。我建议您研究这些内容,而不是用这种方式自己管理数据。

但是,如果您想用这种方式做事,那么您可能正在寻找Dask的worker resources,它可以让您将特定任务定位到特定计算机。