如何加速火花中的左外部连接
我在Spark工作。
左外连接成为整个工作的瓶颈
因此有必要优化火花中的左外部连接。
它是200万条记录数据集之间的左外部连接
计算左外连接需要8分钟
13
leftOuterJoin at:26
2015/07/28 04:38:16 8.3分钟 7/7
152.7 MB 50.5 MB 278.5 MB
答案 0 :(得分:0)
您是否在RDD中使用了partitionBy
和persist
?
为了提高性能,我建议你应该使用partionby并在左边(在左外连接中)保留RDD。
示例代码:
val leftRDD = sc.textFile(//..).partitionBy(numPartitions).persist()
numPartitions
:取决于您的群集硬件。核心数量(如果您有4台核心机器,则选择numPartitions
= 8)