我想知道如何并行处理下一行
df.interpolate(method='linear', axis=1, inplace=True)
,其中df
是pandas
DataFrame
。
我已经了解到,一种并行化自定义函数的方法是通过multiprocessing
进行如下操作
from multiprocessing import Pool
CORES = 8
PARTITIONS = CORES
def parallelize_dataframe(df, func):
df_split = np.array_split(df, PARTITIONS)
pool = Pool(CORES)
df = pd.concat(pool.map(func, df_split))
pool.close()
pool.join()
return df
res = parallelize_dataframe(data_frame, custom_function)
其中custom_function
是将应用于data_frame的每个分区的函数。
但是,我不知道如何将其与df.interpolate
一起使用,因为interpolate
是DataFrame类方法而不是自定义函数。