如何在AWS Glue中设置多个--conf表参数?

时间:2019-04-04 19:36:17

标签: amazon-web-services aws-glue

关于AWS Glue的stackoverflow的多个答案说,设置--conf表参数。但是,有时在一个作业中,我们需要在一个作业中设置多个--conf键值对。

我尝试了以下方法来设置多个--conf值,这些都导致错误:

  • 添加另一个名为--conf的表参数。这将导致AWS Dashboard删除名为--conf的第二个参数,并将焦点设置为名为--conf的第一个参数的值。 Terraform只是认为键--conf的两个表参数都相等,并用第二个值覆盖第一个参数中的值。
  • 使用表--conf参数的值中的空格分隔config键值参数。例如。 spark.yarn.executor.memoryOverhead=1024 spark.yarn.executor.memoryOverhead=7g spark.yarn.executor.memory=7g。这会导致无法启动作业。
  • 在表--conf参数的值中用逗号分隔配置键值参数。例如。 spark.yarn.executor.memoryOverhead=1024, spark.yarn.executor.memoryOverhead=7g, spark.yarn.executor.memory=7g。这会导致无法启动作业。
  • 将--conf的值设置为--conf字符串将每个键值分开。例如。 spark.yarn.executor.memoryOverhead=1024 --conf spark.yarn.executor.memoryOverhead=7g --conf spark.yarn.executor.memory=7g。这导致胶水作业挂起。

如何在AWS Glue中设置多个--conf表参数?

2 个答案:

答案 0 :(得分:0)

您可以按以下方式传递多个参数:

键: --conf

:spark.yarn.executor.memoryOverhead = 7g --conf spark.yarn.executor.memory = 7g

这对我有用。

答案 1 :(得分:-1)

您可以通过编辑作业并添加作业参数来覆盖参数。我使用的键和值在这里:

  

键:--conf

     

值:spark.yarn.executor.memoryOverhead = 7g

这似乎违反直觉,因为设置键实际上在值中,但可以识别。因此,如果您尝试设置spark.yarn.executor.memory,则以下参数将是合适的:

  

键:--conf

     

值:spark.yarn.executor.memory = 7g

查找更多信息(我从中添加了此答案):https://stackoverflow.com/a/50122948/10968161