假设我有以下架构的数据框:
| -- comment: struct
| |-- _1: string
| |-- _2: string
| |-- _3: string
当我使用df.select("comment.*")
时,我正在获取包含_1,_2,_3列的数据框。是否有可能使用alias
方法更改别名?理想情况下,它看起来像df.select($"comment.*".alias("a", "b", "c"))
?
偶df.select($"comment".alias("a"))
会产生错误:
org.apache.spark.sql.AnalysisException: Invalid usage of '*' in expression 'alias';
答案 0 :(得分:3)
您始终可以为select
生成一系列列:
val from = (1 to 3).map(i => col(s"comment._$i"))
val to = Seq("a", "b", "c")
df.select(from.zip(to).map { case (x, y) => x.alias(y) }: _*)