使用Apache Spark rdd-s加入和映射操作

时间:2015-10-21 11:09:57

标签: scala apache-spark

我从一些非常小的数据(10kb到10mb)生成了一堆rdd-s(20~50),我想对它们执行一些操作,主要是join和mapValues。 相同的rdd可能会连接几次到其他rdds。 Rdd-s被缓存。

我最好的策略应该是什么?我将所有操作链接在一起,并且可以使用少量的rdd-s(如10-20),但是当我有更多的连接(工作被卡住)时,Spark似乎很困惑。

希望有人可以分享一些想法。

谢谢!

0 个答案:

没有答案