如何将 df 的两列转换为一个数据帧?

时间:2021-01-27 12:45:42

标签: apache-spark pyspark apache-spark-sql

我需要大数据中的两列。一个可以,另一个不完全是一列。它是字典格式的列的值。

col1 = df.select('originaltitle')
col2 = df.select('workexperiences.title') \
         .withColumn("title", concat_ws(",",col("title")))

我想要一个带有 col1col2 的数据框

1 个答案:

答案 0 :(得分:1)

您将列与数据框混淆了。此处,col1col2 不是列而是 DataFrame。当您选择列或对 df 执行任何类型的转换时,结果是一个新的数据框。

请阅读文档 Spark SQL, DataFrames and Datasets Guide

您想要的只是选择 2 列 originaltitletitle

df1 = df.select(col('originaltitle'), col('workexperiences.title')) \
        .withColumn("title", concat_ws(",",col("title")))