应用错误收集

使用Apache Spark rdd-s加入和映射操作

时间：2015-10-21 11:09:57

标签： scala apache-spark

我从一些非常小的数据（10kb到10mb）生成了一堆rdd-s（20~50），我想对它们执行一些操作，主要是join和mapValues。相同的rdd可能会连接几次到其他rdds。 Rdd-s被缓存。

我最好的策略应该是什么？我将所有操作链接在一起，并且可以使用少量的rdd-s（如10-20），但是当我有更多的连接（工作被卡住）时，Spark似乎很困惑。

希望有人可以分享一些想法。

谢谢！

0 个答案:

没有答案