我正在学习spark(scala),我正在创建一个包含派生列的数据框。我想弄清楚最好的做法。
我的用例有2个派生列,它们寻找另一列值 - 例如 -
if (col22 = "USD") then col1 = "US" elseif (col22 = "CDN" the col1 = "CA" else null)
另一个用例是
if(col23 = "us" && col100 = "abc") then col2 = "10" else if (col23 = "us" && col100 = "bacd" && col99 is null then col2 = 11 else null)
问题 - 我为上述计算编写了UDF函数。我想知道有更好的方法吗?写一个udf函数是最好的做法。我将在我的代码中仅使用这些函数一次。
我的Scala代码 -
def udf1 = udf((col22: String){ (col22) match {
case col22 if (col22 == "USD") => "US"
case col22 if (col22 == "CDN") => "CA"
case _ => null } })
val df1= df.select($"col1", $"col2", udf1($"col22").as("newcol"), udf2($"col23", $"col100").as(newcol2))
答案 0 :(得分:3)
您可以执行以下操作:
val df1 = df.withColumn(
"newcol",
when($"col22" === "USD", lit("US")).otherwise(
when($"col22" === "CDN", lit("CA")).otherwise(lit(null))
)
)