我的火花工作的阶段信息:
第1阶段:
spark.read().textFile(args[0]) -> lines.flatMap(....) -> lines.filter(....) -> lines.map(....)
第2阶段:
lines.groupbykey(...) -> lines.mapgroup(...).show();
假设第1阶段有5个分区,那么该阶段已分为5个任务
以下是我的理解
驱动程序将任务集(flatmap,filter,map)提交给执行者以进行处理吗?
阶段中的所有任务将在每个分区上并行执行相同的操作序列,并收集输出并发送到阶段2
flatmap,filter,map - Partition1 data
:
:
flatmap,filter,map - Partition5 data
请检查并确认我的理解是正确的,否则请纠正我