为什么星火读csv会产生三个工作

时间:2018-12-21 10:26:11

标签: apache-spark

我在spark 2.1cloudra2上尝试了一个简单示例:

val flightData2015 = spark
  .read
  .option("inferSchema", "true")
  .option("header", "true")
  .csv("/2015-summary.csv")

但是当我检查Spark Shell UI时,发现它生成了三个作业: enter image description here

我认为每个动作都应该与工作相关,对吗?我做了一些实验,发现每个选项都可以产生工作。选项是否像行动一样?请帮助了解这种情况。

1 个答案:

答案 0 :(得分:-2)

@yuxh,是因为defaultMinPartitions设置为3。它反映了执行Spark作业时的并行性。您可以在yarn-site.xml中对其进行全局更改,也可以通过以下方式动态地特定于作业发行sqlContext.setConf("spark.sql.shuffle.partitions", "your value”)