如何忽略collect_list

时间:2017-08-22 02:53:41

标签: scala apache-spark spark-dataframe

我有一张如下表格。

|    COLUMN A|            COLUMN b|
|        Case|          1111111111|
|     Rectype|                ABCD|
|         Key|   UMUM_REF_ID=A1234|
|  UMSV ERROR|    UNITS_ALLOW must|
|  NTNB ERROR|       GGGGGGG Value|
|        Case|          2222222222|
|     Rectype|                ABCD|
|         Key|   UMUM_REF_ID=B8765|
|  UMSV ERROR|    UNITS_ALLOW must|
|  NTNB ERROR|       Invalid Value|

我想添加新专栏" C"。 C是collect_list" Case"," Rectype"," key"," UMSV ERROR"和" NTNB ERRO"在A。

我的代码是

val window = Window.rowsBetween(0,4)
val begin = rddDF.withColumn("C", collect_list( $"value").over( window)).where( $"A" like  "Case")
begin.show()

效果很好。

现在,我想再次获取collect_list但忽略" NTNB ERROR"其中b列中的值为"无效值"。 我该怎么办?

0 个答案:

没有答案