我如何并行化pandas.DataFrame方法

时间:2018-09-30 02:49:10

标签: python pandas parallel-processing

我想知道如何并行处理下一行

df.interpolate(method='linear', axis=1, inplace=True)

,其中dfpandas DataFrame

我已经了解到,一种并行化自定义函数的方法是通过multiprocessing进行如下操作

from multiprocessing import Pool

CORES = 8
PARTITIONS = CORES

def parallelize_dataframe(df, func):
    df_split = np.array_split(df, PARTITIONS)
    pool = Pool(CORES)
    df = pd.concat(pool.map(func, df_split))
    pool.close()
    pool.join()
    return df

res = parallelize_dataframe(data_frame, custom_function)

其中custom_function是将应用于data_frame的每个分区的函数。

但是,我不知道如何将其与df.interpolate一起使用,因为interpolate是DataFrame类方法而不是自定义函数。

0 个答案:

没有答案