标签: hadoop apache-spark rdd
作为标题。
当两个大型rdd连接对于内存来说太大时,是否有任何可能的方法来优化它们?在这种情况下,我想我们不能使用广播进行地图侧连接。
如果我必须加入这两个rdd,并且它们都太大而不适合记忆:
{{1}}
有没有办法减少这里的洗牌?或者我可以做些什么来调整连接性能?
此外,join_rdd将仅按国家和时间进一步计算和减少,与id不再相关。例如:我的最终结果=不同年份不同国家的收入。这样做的最佳做法是什么?
我过去常常考虑做一些预分区,但似乎我只需要做一次加入就没有多大帮助?