与多个工作人员同时计算多个任务

时间:2019-11-17 22:33:48

标签: python dataframe dask dask-distributed

我有2名工作人员(AB),他们的工资为df,我正在尝试通过以下任务来计算多个描述性统计信息:

Task 1: df.isnull().sum()
Task 2: df['column'].value_counts()

我想将task1分配给A,将task2分配给B,以使计算与dask并行。

从文档中还不清楚如何实现此目的。我有以下代码:

future = client.compute(task1, task2, workers={task1: 'ipofA',task2: 'ipofB' })
future.result()

但这给了我以下错误:

ValueError: The truth value of a Series is ambiguous. Use a.any() or a.all().

第二个问题是如何将task1分配给计算机A和B,并将task2分配给计算机C?

1 个答案:

答案 0 :(得分:0)

以下代码应该起作用:

x = df.isnull().sum()
y = df['column'].value_counts()
x, y = dask.compute(x, y)
  

第二个问题是如何将任务1分配给计算机A和B,将任务2分配给计算机C?

不应该。您应该让Dask做出最好的决定。