标签: scala hadoop dataframe
我有一个来自hadoop的数据框,看起来或多或少像这样
{x:1, y: {a:2,b:3}} {a:4,b:5}
行格式不连贯 - 有时整个结构都没问题,有时缺少一个级别(例如列 x 和 y ,列 ya 和 yb 称为 a 和 b 。
当我执行操作时 df.withColumn("newColumn", "y.a") 我收到错误,因为列 y.a 的某些行不存在。在这种情况下我能做些什么?
df.withColumn("newColumn", "y.a")