从pyspark

时间:2016-08-10 21:01:01

标签: python pyspark

我只是pyspark和数据框架的初学者 我的dtaframe是df([('one',1),('two',2),('three',3)],[('four',4)]) 所以我想将x连接到元组中的每个第一个元素。 前onex, twox,threex,fourx。 任何帮助表示赞赏。 df.select()仅提供第一个列表中的项目。 MK

1 个答案:

答案 0 :(得分:0)

from pyspark.sql.functions import udf, col
from pyspark.sql.types import StringType

def append_x(val):
    return val + 'x'

df = df.withColumn(
    'appended',
    udf(append_x, StringType())(col(colInput))
)

请注意,colInput是您要将x附加到的列的名称。