在群集上运行的Dask程序中找不到文件错误

时间:2018-06-22 11:33:28

标签: dask dask-distributed dask-delayed dask.distributed

我有4台机器,分别是M1,M2,M3和M4。调度程序,客户端,工作程序在M1上运行。我在M1中放了一个csv文件。其余的机器是工人。

当我在dask中运行带有read_csv文件的程序时。它给我错误,找不到文件

1 个答案:

答案 0 :(得分:2)

当您的一个工作人员尝试加载CSV时,将无法找到它,因为该本地磁盘上没有该文件。这不足为奇。您可以通过多种方式解决此问题:

  • 将文件复制到每个工作人员;就磁盘空间而言,这显然是浪费,但最容易实现
  • 将文件放置在网络文件系统(NFS挂载,gluster,HDFS等)上
  • 将文件放置在诸如Amazon S3之类的外部存储系统上并参考该位置
  • 将数据加载到您的本地进程中并分散分发;在这种情况下,数据可能足够小,无法容纳在内存中,也许dask不会为您做很多事情。