如何将参数传递给Pyspark map()调用的python函数

时间:2018-10-20 15:39:42

标签: python function apache-spark pyspark

我在Python中有一个函数,其功能类似于:

def myFunc(x):
    x = x.lower()
    return x

然后我在PySpark中称呼它

newrdd = myrdd.map(myFunc)
newrdd.collect()

我现在想将另一个参数传递到myFunc()中,例如y

def myFunc(x,y):
    x = x.lower()
    if (y==1):
        print("y is 1")

    return x

然后如何将该参数y传递到myFunc()中,以便可以在功能中使用它:

newrdd = myrdd.map(myFunc(y))

一个解释和答案一起很好。 另外,为什么在.map()内部调用RDD时不必将其传递给myFunc()?

0 个答案:

没有答案