我正在尝试运行一个需要多个数据帧作为参数的函数。考虑到执行时间,我需要并行运行。
考虑到我需要的体积和大小,以确保函数的多处理传递数据,因此内存不会爆炸。我尝试过以下内容,请有人帮我弄清楚如何正确地在循环中传递拆分数据和数据帧1 - 3?
当前代码只是冻结并引发断言错误。
try:
for batch in split_data(data, size=10000):
p.apply_async(function_applied, ([batch], data1,
data2, data3))
finally:
p.close()
p.join()
注意:'split_data'函数将pandas数据帧分隔为指定的大小。 data1,data2 ......等是pandas dataframes