(Spark)当两个大型rdd连接都太大而无法用于内存时,是否有任何可能的方法来优化它们(意味着不能使用广播)?

时间:2017-08-10 12:14:22

标签: hadoop apache-spark rdd

作为标题。

当两个大型rdd连接对于内存来说太大时,是否有任何可能的方法来优化它们?在这种情况下,我想我们不能使用广播进行地图侧连接。

如果我必须加入这两个rdd,并且它们都太大而不适合记忆:

{{1}}

有没有办法减少这里的洗牌?或者我可以做些什么来调整连接性能?

此外,join_rdd将仅按国家和时间进一步计算和减少,与id不再相关。例如:我的最终结果=不同年份不同国家的收入。这样做的最佳做法是什么?

我过去常常考虑做一些预分区,但似乎我只需要做一次加入就没有多大帮助?

0 个答案:

没有答案