Question

Spark research paper已经在经典的Hadoop MapReduce上规定了一个新的分布式编程模型，声称在许多情况下特别是机器学习的简化和巨大的性能提升。但是，本文中似乎缺少使用internal mechanics揭示Resilient Distributed Datasets Directed Acyclic Graph {{1}}的材料。

通过调查源代码可以更好地学习吗？

Answer 1

即使我一直在网上了解火花如何从RDD计算DAG并随后执行任务。

在高级别，当在RDD上调用任何操作时，Spark会创建DAG并将其提交给DAG调度程序。

DAG调度程序将运算符划分为任务阶段。阶段由基于输入数据的分区的任务组成。 DAG调度程序将运营商连接在一起。对于例如许多地图运营商可以在一个阶段进行安排。 DAG调度程序的最终结果是一组阶段。
将阶段传递给任务计划程序。任务计划程序通过集群管理器（Spark Standalone / Yarn / Mesos）启动任务。任务调度程序不知道阶段的依赖关系。
Worker在Slave上执行任务。

让我们来看看Spark如何构建DAG。

在高级别，有两种转换可以应用于RDD，即窄转换和广泛转换。宽变换基本上导致阶段边界。

缩小转换 - 不需要跨分区对数据进行混洗。例如，地图，过滤等。

广泛转型 - 要求对数据进行洗牌，例如reduceByKey等。

我们举一个例子来计算每个严重级别出现的日志消息数量，

以下是以严重性级别

开头的日志文件

INFO I'm Info message
WARN I'm a Warn message
INFO I'm another Info message

并创建以下scala代码以提取相同的

val input = sc.textFile("log.txt")
val splitedLines = input.map(line => line.split(" "))
                        .map(words => (words(0), 1))
                        .reduceByKey{(a,b) => a + b}

此命令序列隐式定义RDD对象的DAG（RDD沿袭），稍后将在调用操作时使用。每个RDD都维护一个指向一个或多个父项的指针以及有关它与父项的关系类型的元数据。例如，当我们在RDD上调用val b = a.map()时，RDD b会保留对其父a的引用，这是一个沿袭。

为了显示RDD的谱系，Spark提供了一种调试方法toDebugString()。例如，在toDebugString() RDD上执行splitedLines将输出以下内容：

(2) ShuffledRDD[6] at reduceByKey at <console>:25 []
    +-(2) MapPartitionsRDD[5] at map at <console>:24 []
    |  MapPartitionsRDD[4] at map at <console>:23 []
    |  log.txt MapPartitionsRDD[1] at textFile at <console>:21 []
    |  log.txt HadoopRDD[0] at textFile at <console>:21 []

第一行（从底部）显示输入RDD。我们通过调用sc.textFile()创建了这个RDD。下面是从给定RDD创建的DAG图的更多示意图。

RDD DAG graph