标签: apache-spark shuffle
输入文本文件:5 个 128 MB 的文件 spark.sql.shuffle.partitions:默认(200) 我正在使用 spark.read 读取输入文件并将其写入镶木地板文件。 在下面的场景中会创建多少个分区?
据我所知,它将为第一个场景创建 200 个分区(5 个包含数据和剩余的 195 个空镶木地板文件)。 它只会为第二个场景(No Shuffle)创建 5 个文件。我的理解正确还是行为不同?
谢谢, 文卡德什K