我有以下使用pandas数据框的工作代码。
输入为“ df”,输出为“ df_out”。这是伪代码。
set varxyz= ( ${value_str} )
set xyzList = "$varxyz"
foreach val ( $xyzList )
echo "val: $val"
end
我尝试通过以下实现使用dask。
category_values = list(df["category"].unique())
num_category_values = len(category_values)
dfg = df.groupby("category")
dfs = []
for i1,this_category_value in enumerate(category_values):
df_this = func(dfg.get_group(this_category_value, par1, par2, par3))
dfs.append(df_this)
df_out = pd.concat(dfs).reset_index(drop=True)
它实际上并不能加速代码。有什么建议么?谢谢!