在Apache Spark中,我知道当我使用一些转换函数时,所有函数都存储为DAG,当我调用一个动作时,Spark会从该DAG运行所有必需的转换函数,直到Action函数。 所以,假设我有
所以,我的问题是在第2步调用第一个动作之后,dag是否被删除,当第二个动作被调用时,新DAG是从步骤3创建的,还是从步骤1创建的新DAG?
答案 0 :(得分:1)
Spark使用弹性分布式数据集(RDD),它代表一组数据。 Spark可以将其存储在分布式内存中。正如您所提到的,RDD是在DAG中构建的。
在你的情况下: