并行申请熊猫数据框

时间:2020-09-14 15:06:58

标签: python pandas parallel-processing

我想在下方运行apply,以便它可以并行运行并提高速度。请建议我如何通过传递参数在语句下面并行运行。

df_merge[['input_list', 'input_ref_text_list']] = df_merge.apply(
    lambda x: get_details(x['xml'], x['seqno']), axis=1, result_type="expand")

我看到一种方法是使用下面的函数,但是我不确定如何将x['xml'], x['seqno']用作函数get_details的输入

def parallelize_dataframe(df, func, n_cores=4):
    df_split = np.array_split(df, n_cores)
    pool = Pool(n_cores)
    df = pd.concat(pool.map(func, df_split))
    pool.close()
    pool.join()
    return df

0 个答案:

没有答案