我有一张如下表格。
| COLUMN A| COLUMN b|
| Case| 1111111111|
| Rectype| ABCD|
| Key| UMUM_REF_ID=A1234|
| UMSV ERROR| UNITS_ALLOW must|
| NTNB ERROR| GGGGGGG Value|
| Case| 2222222222|
| Rectype| ABCD|
| Key| UMUM_REF_ID=B8765|
| UMSV ERROR| UNITS_ALLOW must|
| NTNB ERROR| Invalid Value|
我想添加新专栏" C"。 C是collect_list" Case"," Rectype"," key"," UMSV ERROR"和" NTNB ERRO"在A。
我的代码是
val window = Window.rowsBetween(0,4)
val begin = rddDF.withColumn("C", collect_list( $"value").over( window)).where( $"A" like "Case")
begin.show()
效果很好。
现在,我想再次获取collect_list但忽略" NTNB ERROR"其中b列中的值为"无效值"。 我该怎么办?