客户端分散操作耗时较长,导致内存中的文件字典大小变长

时间:2018-09-13 11:17:45

标签: python dask-distributed

我是Dask的新手,并且最近通过这个不错的工具包进入了并行计算领域。但是,在实现过程中,我一直在努力理解为什么为什么要花6分钟才能将python dict散布在调度程序工作站的内存中给我的工人。

这个字典并不大。 sys.sizeof(mydict)告诉我它是41943152字节。如果我使用dask或numpy数组会有所不同吗?我可以肯定这不是网络限制,因为我能够在15秒内将400MB文件复制到工作程序终端。

我的设置是另一个工作工作站(2 proc x 1线程),调度程序工作站也设置为工作工作站(4 proc x 1线程)。任何帮助将不胜感激!

future_dict = my_vc.e1.dict_of_all_sea_mesh_edges

[future_dict] = c.scatter([future_dict])

日志:

Scattering dict_of_all_sea_mesh_edges to cluster execution started
Scattering dict_of_all_sea_mesh_edges to cluster completed in 00 HOURS :06 MINUTES :46.67 SECONDS

In[2]: sys.getsizeof(my_vc.e1.dict_of_all_sea_mesh_edges)/1000000

Out[2]: 41.943152

0 个答案:

没有答案