Spark Intersection需要很长时间

时间:2015-12-31 07:10:08

标签: apache-spark cassandra

我有两个RDD来自Cassandra table1的oldDataRDD和来自Cassandra table2的newDataRDD

我正在对这两个RDDs执行交集。 记录数在{strong> 34560000 到 40000000 之间的oldDataRDD范围内, 并且newDataRDD中的记录数与 34560000 几乎相同。 执行交叉路口所需的工作时间是变化的,有时需要7-9分钟,有时需要30分钟以上。

火花交叉的奇怪行为是什么? 是否有更好的替代方案来执行RDD

的交集

0 个答案:

没有答案