Pyspark使用定制功能

时间:2017-10-20 22:28:36

标签: python apache-spark pyspark

我是Scala Spark的程序员,但我需要在项目中使用PySpark在Python中做一些事情。 我想知道如何使用自定义行=> PySpark中的行映射转换。

例如:我有一个数据帧mydf:

id  x1,  x2
1    5    3
2    4    6
3    9    10

我希望将此数据帧转换为另一个数据帧,并在每行上执行映射操作。

所以我设计了一个map函数,它将一行作为输入,并生成一个新行作为输出。所以这是一个Row =>行地图:

def mySum (row):

   id = row.id
   result = row.x1 + row.x2

   return Row(id, result)

然后我想在python中使用,这与我在Scala中的相似

mynewdf = mydf.map( x=> mySum(x))

所以预期结果如下:

id  result
1    8
2    10
3    19

实际上,自定义函数非常复杂,所以我需要一个单独的函数来描述它。

如何使用PySpark在Python中执行此操作。谢谢,

1 个答案:

答案 0 :(得分:1)

等效的是lambda函数:

df.rdd.map(lambda x: mySum(x))

但是如果函数只将行作为参数,则可以直接将函数传递给map

df.rdd.map(mySum)
def mySum (row):
    id = row.id
    result = row.x1 + row.x2
    return Row(id=id, result=result)

df.rdd.map(mySum).toDF().show()
+---+------+
| id|result|
+---+------+
|  1|     8|
|  2|    10|
|  3|    19|
+---+------+