应用错误收集

我有一个Spark应用程序执行以下操作

我已将问题建模如下

获取驱动程序中的文件列表，并使用sc.parallelize生成文件名的RDD。我试图通过numberOfPartitions来控制sc.parallelize(filenameArray, sizeOfFilenameArray) - 让我们称之为filenamesRDD
并行下载S3中每个文件的内容并映射到用户定义的对象 - 让我们将此RDD称为objectsRDD
从pairRDD

objectsRDD

使用reduceByKey获取每个密钥的计数 - 让我们将此RDD称为countsRDD。 目前由于某个错误，我numberOfPartitions设置为1

countsRDD

我有两个运行应用程序的环境

正如所料，我的工作分两个阶段执行

我观察到在我的Prod环境中，为阶段1和阶段2生成的numberOfTasks不等于相应RDD中的numberOfParitions。我通过打印确认了numberOfPartitions的值。这是一个例子

numberOfFiles = 100

测试环境

阶段1
- 期望：numberOfTasks = 100，numberOfParitions = 100 objectsRDD和pairRDD
- 观察：匹配期望
Stage2的
- 期望：numberOfTasks = 1，numberOfPartitions = 1 countsRDD
- 现实：匹配期望

产品环境

阶段1
- 期望：numberOfTasks = 100，numberOfPartitions = 100 objectsRDD和pairRDD
- 观察：numberOfTasks = 16，numberOfPartitions = 100 objectsRDD和pairRDD
Stage2的
- 期望：numberOfTasks = 1，numberOfPartitions = 1 countsRDD
- 观察：numberOfTasks = 16，numberOfPartitions = 1 countsRDD

我已经阅读了很多材料，我在numberOfPartitions != numberOfTasks看到的实例和解释都没有。有人可以帮助弄清楚发生了什么。