我在spark 2.1cloudra2上尝试了一个简单示例:
val flightData2015 = spark
.read
.option("inferSchema", "true")
.option("header", "true")
.csv("/2015-summary.csv")
但是当我检查Spark Shell UI时,发现它生成了三个作业:
我认为每个动作都应该与工作相关,对吗?我做了一些实验,发现每个选项都可以产生工作。选项是否像行动一样?请帮助了解这种情况。
答案 0 :(得分:-2)
@yuxh,是因为defaultMinPartitions
设置为3。它反映了执行Spark作业时的并行性。您可以在yarn-site.xml
中对其进行全局更改,也可以通过以下方式动态地特定于作业发行sqlContext.setConf("spark.sql.shuffle.partitions", "your value”)