应用错误收集

我正在详细学习RDD概念，有一次我感到困惑。可以说我要依次应用3个map函数，然后是一个filter函数，最后是一个join。所以在这里我要应用总共3个转换，这意味着3个RDD。但是这里有一个问题，那就是如果我的数据大小为10 TB，并且每个映射将为每个图提供10 TB RDD，即30 GB的数据，这是不可行的解决方案。经过更多的阅读后，我知道在此过程中只会创建一个RDD，而且我不确定它是如何工作的。因此任何人都可以向我提供详细的信息。

Spark中RDD操作的概念？

0 个答案: