我在HPC环境中拥有群集,紧密耦合的互连以及支持Lustre文件系统。我们一直在探索如何利用Dask不仅提供计算,还充当分布式缓存来加速我们的工作流程。我们的专有数据格式是n维和常规的,我们编写了一个惰性读者,以传递给from_array / from_delayed方法。
我们在Dask集群中加载和保存大于内存的数据集时遇到了一些问题。
hdf5示例:
# Dask scheduler has been started and connected to 8 workers
# spread out on 8 machines, each with --memory-limit=150e9.
# File locking for reading hdf5 is also turned off
from dask.distributed import Client
c = Client({ip_of_scheduler})
import dask.array as da
import h5py
hf = h5py.File('path_to_600GB_hdf5_file', 'r')
ds = hf[hf.keys()[0]]
x = da.from_array(ds, chunks=(100, -1, -1))
x = c.persist(x) # takes 40 minutes, far below network and filesystem capabilities
print x[300000,:,:].compute() # works as expected
我们还从一些自己的文件文件格式中加载了数据集(使用切片,dask.delayed和from_delayed),并且随着文件大小的增加,性能也出现了类似的降低。
我的问题:使用Dask作为分布式缓存是否存在固有的瓶颈?是否会强制所有数据通过调度程序进行漏斗?工人是否能够利用Lustre,或者以某种方式序列化功能和/或I / O?如果是这种情况,那么在大量数据集上调用持久性并让Dask在需要时处理数据和计算会更有效吗?
答案 0 :(得分:1)
使用Dask作为分布式缓存是否存在固有的瓶颈?
每个系统都存在瓶颈,但听起来你似乎没有遇到我对Dask期望的瓶颈。 我怀疑你正在遇到其他事情。
是否会强制所有数据通过调度程序进行合作?
不,工作人员可以执行自行加载数据的功能。然后,这些数据将留在工人身上。
工作人员是否能够利用Lustre,或以某种方式序列化功能和/或I / O?
工作者只是Python进程,因此如果在集群上运行的Python进程可以利用Lustre(几乎可以肯定是这种情况)那么是的,Dask Workers可以利用Lustre。
如果是这种情况,那么在大量数据集上调用persist并让Dask在需要时处理数据和计算会更有效吗?
这当然很常见。这里的权衡取决于NFS的分布式带宽和分布式内存的可用性。
在你的位置,我会使用Dask的诊断程序来弄清楚占用了多少时间。您可能需要仔细阅读understanding performance上的文档以及dashboard上的相关部分。该部分的视频可能特别有用。我会问两个问题: