Spark中RDD操作的概念?

时间:2018-10-01 11:56:33

标签: apache-spark rdd transformation

我正在详细学习RDD概念,有一次我感到困惑。可以说我要依次应用3个map函数,然后是一个filter函数,最后是一个join。所以在这里我要应用总共3个转换,这意味着3个RDD。但是这里有一个问题,那就是如果我的数据大小为10 TB,并且每个映射将为每个图提供10 TB RDD,即30 GB的数据,这是不可行的解决方案。经过更多的阅读后,我知道在此过程中只会创建一个RDD,而且我不确定它是如何工作的。 因此任何人都可以向我提供详细的信息。

0 个答案:

没有答案