应用错误收集

（Spark）当两个大型rdd连接都太大而无法用于内存时，是否有任何可能的方法来优化它们（意味着不能使用广播）？

时间：2017-08-10 12:14:22

标签： hadoop apache-spark rdd

作为标题。

当两个大型rdd连接对于内存来说太大时，是否有任何可能的方法来优化它们？在这种情况下，我想我们不能使用广播进行地图侧连接。

如果我必须加入这两个rdd，并且它们都太大而不适合记忆：

{{1}}

有没有办法减少这里的洗牌？或者我可以做些什么来调整连接性能？

此外，join_rdd将仅按国家和时间进一步计算和减少，与id不再相关。例如：我的最终结果=不同年份不同国家的收入。这样做的最佳做法是什么？

我过去常常考虑做一些预分区，但似乎我只需要做一次加入就没有多大帮助？

0 个答案:

没有答案