我需要大数据中的两列。一个可以,另一个不完全是一列。它是字典格式的列的值。
col1 = df.select('originaltitle')
col2 = df.select('workexperiences.title') \
.withColumn("title", concat_ws(",",col("title")))
我想要一个带有 col1
和 col2
的数据框
答案 0 :(得分:1)
您将列与数据框混淆了。此处,col1
和 col2
不是列而是 DataFrame。当您选择列或对 df 执行任何类型的转换时,结果是一个新的数据框。
请阅读文档 Spark SQL, DataFrames and Datasets Guide。
您想要的只是选择 2 列 originaltitle
和 title
:
df1 = df.select(col('originaltitle'), col('workexperiences.title')) \
.withColumn("title", concat_ws(",",col("title")))