这里仅使用Spark作为概念参考:在Spark RDD API中,有普通的旧map(),然后有mapPartition()。在mapPartition()中,用户定义的函数获取项目的完整集合。这使用户定义的功能可以对每个“块”执行一次昂贵的设置/拆卸操作,而不是对每个项目执行一次。
Python(非火花)多处理程序包中是否有类似的东西?为map(),imap()等指定块大小似乎只是一次将一个项目发送给用户定义的函数,因此没有机会摊销多个项目上的昂贵设置/拆卸。 (很抱歉,如果我缺少明显的东西,这是Python多处理的新功能。)
如果没有,是否还有另一个类似的Python软件包支持这种东西?