使用pool.map()进行Pyspark多处理

时间:2018-02-28 14:20:54

标签: python python-2.7 pyspark python-multiprocessing

我为列表full_item()的每个元素调用size_DF并将一些参数传递给函数。

map(lambda x : object.full_item(sc, Database, len(x), end_date),size_DF) 

地图功能正在运行,但由于列表包含更多元素,因此需要更多时间。

我尝试了多处理,但收到如下错误:

from multiprocessing import Pool

pool = Pool()

pool.map(lambda x : object.full_item(sc, Database, len(x), end_date),size_DF)
  

cPickle.PicklingError:不能pickle:属性   查找内置 .function失败

请帮忙,让我知道如何继续。

0 个答案:

没有答案