Question

是否可以将额外的参数传递给pySpark中的映射函数？具体来说，我有以下代码配方：

raw_data_rdd = sc.textFile("data.json", use_unicode=True)
json_data_rdd = raw_data_rdd.map(lambda line: json.loads(line))
mapped_rdd = json_data_rdd.flatMap(processDataLine)

除了JSON对象之外，函数processDataLine还需要额外的参数，如：

def processDataLine(dataline, arg1, arg2)

如何将额外参数arg1和arg2传递给flaMap函数？

Answer 1

您可以直接在flatMap

中使用匿名函数

json_data_rdd.flatMap(lambda j: processDataLine(j, arg1, arg2))

或咖喱processDataLine

f = lambda j: processDataLine(dataline, arg1, arg2)
json_data_rdd.flatMap(f)

您可以像这样生成processDataLine：

def processDataLine(arg1, arg2):
    def _processDataLine(dataline):
        return ... # Do something with dataline, arg1, arg2
    return _processDataLine

json_data_rdd.flatMap(processDataLine(arg1, arg2))

toolz库提供了有用的curry装饰器：

from toolz.functoolz import curry

@curry
def processDataLine(arg1, arg2, dataline): 
    return ... # Do something with dataline, arg1, arg2

json_data_rdd.flatMap(processDataLine(arg1, arg2))

请注意，我已将dataline参数推到最后一个位置。这不是必需的，但这样我们就不必使用关键字args。

最后，functools.partial已在评论中提及Avihoo Mamka。

Spark RDD - 使用额外参数进行映射

1 个答案: