Question

下午好！我有一个问题：

val rdd1: RDD[(key, value)] = ...
val rdd2: RDD[(key, othervalue)] = ...

我想过滤rdd1并丢弃所有不在rdd2中的元素。我知道有两种方法可以做到这一点。

首先：

val keySet = rdd2.map(_.key).distinct().collect().toSet
rdd1.filter(x => keySet.contains(x))

它不起作用，因为keySet很大并且不适合记忆。

另一个：

rdd1.cogroup(rdd2)
  .filter(x => x._2._2.nonEmpty)
  .flatMap(x => x._2._1)

这里发生了一些事情，我得到两种错误（在不同的代码位置）：java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE和java.lang.ArrayIndexOutOfBoundException

我认为这是因为我的团队太大了。

那我该怎么办呢？有没有什么常用方法可以解决这个问题？

Answer 1

您是否考虑过使用subtractByKey？

的内容

rdd1.map(x => (x, x))
    .subtractByKey(rdd2)
    .map((k,v) => k)

Answer 2

考虑rdd1.subtractByKey（rdd1.subtractByKey（rdd2））。 rdd1.subtractByKey（rdd2）将使用rdd1但不在rdd2中的键获取这些元素。这与你想要的完全相反。 subtractByKey-ing那些将得到你想要的。