应用错误收集

时间：2019-09-17 15:34:54

标签： apache-spark apache-spark-sql aws-glue

AWS Glue文档未提及关于spark.sql.shuffle.partitions（默认为200）以及如何增加/减少它的任何内容？ AWS胶水甚至可能吗？还是我们只能容纳200个分区？周围有什么好的文档吗？

答案 0 :(得分：0)

AWS Glue文档远不及Stellar ...实际上，AWS Glue文档告诉您显式不设置配置。但是，从大多数有关AWS Glue基础设施的答案中可以看到，答案的确是设置配置。

您可以根据需要采取多种方式。假设您要将这个值设置为100。

您可以将作业参数添加到粘合作业中，如下所示：--conf spark.sql.shuffle.partitions=100
在您的代码中，您可以像下面这样显式更新sqlContext：sqlContext.setConf("spark.sql.shuffle.partitions", "100")
在RDD或SparkSQL中，您可以像这样repartition或df.repartition(100)那样在rdd对象或数据帧上调用rdd.repartition(100)。
在RDD中，各种连接方法采用可以像这样设置的参数numPartitions：rdd1.join(rdd1, numPartitions=100)