下午好!我有一个问题:
val rdd1: RDD[(key, value)] = ...
val rdd2: RDD[(key, othervalue)] = ...
我想过滤rdd1
并丢弃所有不在rdd2
中的元素。我知道有两种方法可以做到这一点。
首先:
val keySet = rdd2.map(_.key).distinct().collect().toSet
rdd1.filter(x => keySet.contains(x))
它不起作用,因为keySet
很大并且不适合记忆。
另一个:
rdd1.cogroup(rdd2)
.filter(x => x._2._2.nonEmpty)
.flatMap(x => x._2._1)
这里发生了一些事情,我得到两种错误(在不同的代码位置):java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE
和java.lang.ArrayIndexOutOfBoundException
我认为这是因为我的团队太大了。
那我该怎么办呢?有没有什么常用方法可以解决这个问题?
答案 0 :(得分:1)
答案 1 :(得分:0)
考虑rdd1.subtractByKey(rdd1.subtractByKey(rdd2))。 rdd1.subtractByKey(rdd2)将使用rdd1但不在rdd2中的键获取这些元素。这与你想要的完全相反。 subtractByKey-ing那些将得到你想要的。