标签: scala apache-spark
我从一些非常小的数据(10kb到10mb)生成了一堆rdd-s(20~50),我想对它们执行一些操作,主要是join和mapValues。 相同的rdd可能会连接几次到其他rdds。 Rdd-s被缓存。
我最好的策略应该是什么?我将所有操作链接在一起,并且可以使用少量的rdd-s(如10-20),但是当我有更多的连接(工作被卡住)时,Spark似乎很困惑。
希望有人可以分享一些想法。
谢谢!