Dask分布式-多个客户端相同的持久数据

时间:2019-05-07 06:15:34

标签: dask dask-distributed

我们正在尝试Dask Distributed为前端进行大量的计算和可视化。

现在我们有一个带有gunicorn的工作程序,该工作程序连接到现有的分布式Dask集群,该工作程序当前使用read_csv上载数据,并坚持到集群中。

我已经尝试过用泡菜从持久性数据框中保存期货,但这是行不通的。

我们希望有多名枪手工人,每个工人都有一个连接到同一集群并使用相同数据的不同客户端,但是每个工人都有更多人上载新的数据框。

1 个答案:

答案 0 :(得分:0)

听起来您正在寻找Dask的publish datasets的能力

一种方便的方法是使用client.datasets映射

客户端1

client = Client('...')
df = dd.read_csv(...)
client.datasets['my-data'] = df

客户端2..n

client = Client('...')  # same scheduler
df = client.datasets['my-data']