设置迷你Dask群集

时间:2020-04-13 17:30:52

标签: python csv dask dask-delayed

为了更好地了解Dask,我决定建立一个小型的Dask集群:两台服务器32GB RAM和一台Mac。所有这些都是本地LAN的一部分,并且都运行安装在虚拟环境下的相同版本的Python 3.5 + Dask。 我在两台服务器上都安装了sshfs,以在工作进程之间共享数据。我能够在192.168.2.149上启动dask-scheduler,在192.168.2.26上启动4个dask-workers。

我需要帮助的是对拓扑的概念性理解,以便从分布式分布式架构中完全受益: -我在属于局域网一部分的Mac上运行实验。我有一个20 GB的csv,我需要加载到Pandas中,因此我在本地运行py代码。在我的代码中,我设置了一个Dask客户端以使用dask_scheduler:

client = Client('192.168.2.149:8786')

然后我尝试像这样加载大型csv:

df = dd.read_csv("exp3_raw_data.csv", sep="\t") 

csv仅存在于我的mac机上,因此dask_workers对CSS一无所知。如果我将csv移至通过sshfs共享的目录,那么我的Mac如何引用该csv?

感谢您的帮助。

1 个答案:

答案 0 :(得分:1)

如果我将csv移至通过sshfs共享的目录,那么我的mac机将如何引用该csv?

您将必须找到一个地址,供您的客户和所有愚蠢的工作人员统一使用。 Dask不会为您移动文件。它希望它们可以访问。

在所有工作人员都可以看到的网络文件系统上使用Dask更为常见。

相关问题