我们正在尝试Dask Distributed为前端进行大量的计算和可视化。
现在我们有一个带有gunicorn的工作程序,该工作程序连接到现有的分布式Dask集群,该工作程序当前使用read_csv
上载数据,并坚持到集群中。
我已经尝试过用泡菜从持久性数据框中保存期货,但这是行不通的。
我们希望有多名枪手工人,每个工人都有一个连接到同一集群并使用相同数据的不同客户端,但是每个工人都有更多人上载新的数据框。
答案 0 :(得分:0)
听起来您正在寻找Dask的publish datasets的能力
一种方便的方法是使用client.datasets
映射
客户端1
client = Client('...')
df = dd.read_csv(...)
client.datasets['my-data'] = df
客户端2..n
client = Client('...') # same scheduler
df = client.datasets['my-data']