我有2名工作人员(A
和B
),他们的工资为df
,我正在尝试通过以下任务来计算多个描述性统计信息:
Task 1: df.isnull().sum()
Task 2: df['column'].value_counts()
我想将task1
分配给A
,将task2
分配给B
,以使计算与dask并行。
从文档中还不清楚如何实现此目的。我有以下代码:
future = client.compute(task1, task2, workers={task1: 'ipofA',task2: 'ipofB' })
future.result()
但这给了我以下错误:
ValueError: The truth value of a Series is ambiguous. Use a.any() or a.all().
第二个问题是如何将task1
分配给计算机A和B,并将task2
分配给计算机C?
答案 0 :(得分:0)
以下代码应该起作用:
x = df.isnull().sum()
y = df['column'].value_counts()
x, y = dask.compute(x, y)
第二个问题是如何将任务1分配给计算机A和B,将任务2分配给计算机C?
不应该。您应该让Dask做出最好的决定。