我们可以在AWS Glue中设置spark.sql.shuffle.partitions吗?

时间:2019-09-17 15:34:54

标签: apache-spark apache-spark-sql aws-glue

AWS Glue文档未提及关于spark.sql.shuffle.partitions(默认为200)以及如何增加/减少它的任何内容? AWS胶水甚至可能吗?还是我们只能容纳200个分区?周围有什么好的文档吗?

1 个答案:

答案 0 :(得分:0)

AWS Glue文档远不及Stellar ...实际上,AWS Glue文档告诉您显式不设置配置。但是,从大多数有关AWS Glue基础设施的答案中可以看到,答案的确是设置配置。

您可以根据需要采取多种方式。假设您要将这个值设置为100。

  1. 您可以将作业参数添加到粘合作业中,如下所示:--conf spark.sql.shuffle.partitions=100
  2. 在您的代码中,您可以像下面这样显式更新sqlContext:sqlContext.setConf("spark.sql.shuffle.partitions", "100")
  3. 在RDD或SparkSQL中,您可以像这样repartitiondf.repartition(100)那样在rdd对象或数据帧上调用rdd.repartition(100)
  4. 在RDD中,各种连接方法采用可以像这样设置的参数numPartitionsrdd1.join(rdd1, numPartitions=100)