我的DataFrame的架构如下:
root
|-- col1: string (nullable = true)
|-- col2: array (nullable = true)
| |-- element: struct (containsNull = true)
| | |-- unit1: string (nullable = true)
| | |-- sum(unit2): string (nullable = true)
| | |-- max(unit3): string (nullable = true)
|-- col3: array (nullable = true)
| |-- element: struct (containsNull = true)
| | |-- unit1: string (nullable = true)
| | |-- sum(unit2): string (nullable = true)
| | |-- max(unit3): string (nullable = true)
我正在用Scala编写一个带cols-col2和col3的UDF。
考虑到col2的值可以为“ null”
val process_stuff = udf((col2: ???, col3: ??? ) => {
到目前为止,我已经尝试过此方法和其他方法
val process_stuff = udf((col2:ArrayType[StructType[StructField]], col3:ArrayType[StructType[StructField]]) => {
但是它在各处警告我 请帮忙!
答案 0 :(得分:0)
您的UDF应该具有以下签名:
val process_stuff = udf((col2: Seq[Row], col3: Seq[Row]) => {...})