Spark数据集-使用某些标识符过滤并将行替换为另一行

时间:2018-07-13 01:57:59

标签: scala apache-spark apache-spark-sql

第1步:我的数据/数据集是这样的: 注意:col1是主要标识符

col1 col2 col3 col4
11  21  true   some value
11  22  false   some value
11  23  false   some value
12  24  true    some value
13  25  true    some value
14  26  false   some value
15  27  false   some value

步骤2。我需要在col4上应用一个过滤条件,结果数据为:

col1 col2 col3 col4
11  22  false   some value
12  24  true    some value
13  25  true    some value
15  27  false   some value

第3步。现在,我需要将col1的行替换为col3,如果有的话,其值为“ true”, 当step2中包含与col3的col1值相同且为“ false”的任何行时 例如,在步骤2中,应将“ 11 22 false some value”行替换为“ 11 21 true some value”行。

Final result:
col1 col2 col3 col4
11  21  true    some value
12  24  true    some value
13  25  true    some value
15  27  false   some value

我如何才能最好地做到这一点?谢谢!

0 个答案:

没有答案