Question

我在spark 2.1cloudra2上尝试了一个简单示例：

val flightData2015 = spark
  .read
  .option("inferSchema", "true")
  .option("header", "true")
  .csv("/2015-summary.csv")

但是当我检查Spark Shell UI时，发现它生成了三个作业：

我认为每个动作都应该与工作相关，对吗？我做了一些实验，发现每个选项都可以产生工作。选项是否像行动一样？请帮助了解这种情况。

Answer 1

@yuxh，是因为defaultMinPartitions设置为3。它反映了执行Spark作业时的并行性。您可以在yarn-site.xml中对其进行全局更改，也可以通过以下方式动态地特定于作业发行sqlContext.setConf("spark.sql.shuffle.partitions", "your value”)

为什么星火读csv会产生三个工作

1 个答案: