PySpark:从列值命名一个新的数据帧列

时间:2017-10-05 10:04:28

标签: dataframe pyspark

我需要在数据框中创建新列,并从数据框值中命名这些列。像这样:

new_df = df.withColumn( concat('col_',df['col1']) , df['col2']+df['col3'])

但它告诉我不能在名称

中使用列对象

1 个答案:

答案 0 :(得分:1)

如果有帮助,请告诉我,

from pyspark.sql import functions as F
new_df = df.withColumn('combcol',F.concat(F.lit('col_'),df['col1'])).groupby('col1').pivot('combcol').agg(F.first('col1')+F.first('col2'))