我有两个RDD
来自Cassandra table1的oldDataRDD
和来自Cassandra table2的newDataRDD
。
我正在对这两个RDDs
执行交集。
记录数在{strong> 34560000 到 40000000 之间的oldDataRDD
范围内,
并且newDataRDD
中的记录数与 34560000 几乎相同。
执行交叉路口所需的工作时间是变化的,有时需要7-9分钟,有时需要30分钟以上。
火花交叉的奇怪行为是什么?
是否有更好的替代方案来执行RDD
?