用dask并行化pandas数据框不会加快计算速度

时间:2019-05-17 17:39:30

标签: pandas dask

我有以下使用pandas数据框的工作代码。

输入为“ df”,输出为“ df_out”。这是伪代码。

set varxyz= ( ${value_str} )
set xyzList = "$varxyz"

foreach val ( $xyzList )
 echo "val: $val"
end

我尝试通过以下实现使用dask。

category_values = list(df["category"].unique())
num_category_values = len(category_values)

dfg = df.groupby("category")

dfs = []
for i1,this_category_value in enumerate(category_values):
    df_this = func(dfg.get_group(this_category_value, par1, par2, par3))
    dfs.append(df_this)

df_out = pd.concat(dfs).reset_index(drop=True)

它实际上并不能加速代码。有什么建议么?谢谢!

0 个答案:

没有答案