我有一个RDD,x,其中我有两个字段:id,value。如果一行有特定值,我想获取id并过滤掉所有具有该id的行。
例如,如果我有:
id1,value1
id1,value2
我希望过滤掉所有ID,如果任何具有该id的行具有值value1,那么我希望过滤掉所有行。但目前只筛选出第一行,因为它的值为value1。
我尝试过像
这样的事情val filter = x.filter(row => (set contains row.value))
这会过滤掉所有具有特定值的行,但仍会在RDD中保留具有相同ID的其他行。