以下与动态列生成一起很好地工作:
import org.apache.spark.sql.functions._
import sqlContext.implicits._
import org.apache.spark.sql.DataFrame
val input = sc.parallelize(Seq(
("a", "5a", "7w", "9", "a12", "a13")
)).toDF("ID", "var1", "var2", "var3", "var4", "var5")
val columns_to_concat = input.columns
input.select(concat(columns_to_concat.map(c => col(c)): _*).as("concat_column")).show(false)
返回:
+-------------+
|concat_column|
+-------------+
|a5a7w9a12a13 |
+-------------+
在保留动态列生成的同时,如何使用 foldLeft,reduceLeft 做到这一点?
我总是得到一个错误,或者返回一个空值。尽管concat足够了,但我对折叠等如何工作感到好奇。
答案 0 :(得分:2)
这绝对不是路要走的路 *,但是如果您将其视为编程练习,则:
import org.apache.spark.sql.functions.{col, concat, lit}
columns_to_concat.map(col(_)).reduce(concat(_, _))
或
columns_to_concat.map(col(_)).foldLeft(lit(""))(concat(_, _))
*因为