应用错误收集

时间：2019-10-17 07:18:31

标签： dask dask-delayed

与hadoop上的数据本地化相同的概念，但是我不想使用hdfs。

我有3个达人工人。

我想计算一个很大的csv文件名，例如mydata.csv。

我将mydata.csv拆分为一个小文件（mydata_part_001.csv ... mydata_part_100.csv），并将其存储在每个工作程序的本地文件夹/ data中例如

worker-01将mydata_part_001.csv-mydata_part_030.csv存储在本地文件夹/ data中

worker-02将mydata_part_031.csv-mydata_part_060.csv存储在本地文件夹/ data中

worker-03将mydata_part_061.csv-mydata_part_100.csv存储在本地文件夹/ data中

如何对mydata使用dask运算？谢谢。

答案 0 :(得分：0)

更常见的是使用某种可全局访问的文件系统。 HDFS是这种情况的一个示例，但是还存在其他几种网络文件系统（NFS）。我建议您研究这些内容，而不是用这种方式自己管理数据。

但是，如果您想用这种方式做事，那么您可能正在寻找Dask的worker resources，它可以让您将特定任务定位到特定计算机。