一个阶段中的所有任务将执行相同的操作顺序

时间:2018-12-23 17:33:00

标签: apache-spark

我的火花工作的阶段信息:

第1阶段:

spark.read().textFile(args[0]) -> lines.flatMap(....) -> lines.filter(....) ->  lines.map(....)

第2阶段:

lines.groupbykey(...) -> lines.mapgroup(...).show();

假设第1阶段有5个分区,那么该阶段已分为5个任务

以下是我的理解

  1. 驱动程序将任务集(flatmap,filter,map)提交给执行者以进行处理吗?

  2. 阶段中的所有任务将在每个分区上并行执行相同的操作序列,并收集输出并发送到阶段2

    flatmap,filter,map - Partition1 data
        :
        :
    flatmap,filter,map - Partition5 data
    

请检查并确认我的理解是正确的,否则请纠正我

0 个答案:

没有答案