我需要在数据框中创建新列,并从数据框值中命名这些列。像这样:
new_df = df.withColumn( concat('col_',df['col1']) , df['col2']+df['col3'])
但它告诉我不能在名称
中使用列对象答案 0 :(得分:1)
如果有帮助,请告诉我,
from pyspark.sql import functions as F
new_df = df.withColumn('combcol',F.concat(F.lit('col_'),df['col1'])).groupby('col1').pivot('combcol').agg(F.first('col1')+F.first('col2'))