我有一个简单的函数,它接受4个参数,它们都是数据帧,使用它进行预处理(如清洗)的那些数据帧,使用机器学习来填充空值,使用group by然后在最后在返回函数中给出两个数据帧。 像这样:
def preprocess(df1,df2,df3,df4):
"some arguments for cleaning and manipulation data"
return(clean,df_new)
由于我正在执行内存密集型操作,因此我在考虑是否可以利用python中的并发期货功能。我确实尝试过简单地使用这种样式:
with concurrent.futures.ProcessPoolExecutor() as executor:
executor.map(clean,df_new=preprocess(df1,df2,df3,df4))
我收到错误消息,说未定义clean和df_new。我对如何在“预处理”功能上使用并发未来感到困惑,以便可以利用笔记本电脑的所有内核并加快此操作的处理速度。任何想法/帮助都非常感谢。