Python(非火花)多处理等效于Spark的mapPartition?

时间:2019-12-01 02:21:12

标签: python python-multiprocessing

这里仅使用Spark作为概念参考:在Spark RDD API中,有普通的旧map(),然后有mapPartition()。在mapPartition()中,用户定义的函数获取项目的完整集合。这使用户定义的功能可以对每个“块”执行一次昂贵的设置/拆卸操作,而不是对每个项目执行一次。

Python(非火花)多处理程序包中是否有类似的东西?为map(),imap()等指定块大小似乎只是一次将一个项目发送给用户定义的函数,因此没有机会摊销多个项目上的昂贵设置/拆卸。 (很抱歉,如果我缺少明显的东西,这是Python多处理的新功能。)

如果没有,是否还有另一个类似的Python软件包支持这种东西?

0 个答案:

没有答案