Question

我们正在尝试Dask Distributed为前端进行大量的计算和可视化。

现在我们有一个带有gunicorn的工作程序，该工作程序连接到现有的分布式Dask集群，该工作程序当前使用read_csv上载数据，并坚持到集群中。

我已经尝试过用泡菜从持久性数据框中保存期货，但这是行不通的。

我们希望有多名枪手工人，每个工人都有一个连接到同一集群并使用相同数据的不同客户端，但是每个工人都有更多人上载新的数据框。

Answer 1

听起来您正在寻找Dask的publish datasets的能力

一种方便的方法是使用client.datasets映射

客户端1

client = Client('...')
df = dd.read_csv(...)
client.datasets['my-data'] = df

客户端2..n

client = Client('...')  # same scheduler
df = client.datasets['my-data']