Spark:根据键/值过滤掉所有行

时间:2017-02-25 06:50:53

标签: apache-spark rdd

我有一个RDD,x,其中我有两个字段:id,value。如果一行有特定值,我想获取id并过滤掉所有具有该id的行。

例如,如果我有:

id1,value1
id1,value2

我希望过滤掉所有ID,如果任何具有该id的行具有值value1,那么我希望过滤掉所有行。但目前只筛选出第一行,因为它的值为value1。

我尝试过像

这样的事情
val filter = x.filter(row => (set contains row.value))

这会过滤掉所有具有特定值的行,但仍会在RDD中保留具有相同ID的其他行。

0 个答案:

没有答案