AWS Glue文档未提及关于spark.sql.shuffle.partitions(默认为200)以及如何增加/减少它的任何内容? AWS胶水甚至可能吗?还是我们只能容纳200个分区?周围有什么好的文档吗?
答案 0 :(得分:0)
AWS Glue文档远不及Stellar ...实际上,AWS Glue文档告诉您显式不设置配置。但是,从大多数有关AWS Glue基础设施的答案中可以看到,答案的确是设置配置。
您可以根据需要采取多种方式。假设您要将这个值设置为100。
--conf spark.sql.shuffle.partitions=100
sqlContext.setConf("spark.sql.shuffle.partitions", "100")
repartition
或df.repartition(100)
那样在rdd对象或数据帧上调用rdd.repartition(100)
。 numPartitions
:rdd1.join(rdd1, numPartitions=100)