关于AWS Glue的stackoverflow的多个答案说,设置--conf表参数。但是,有时在一个作业中,我们需要在一个作业中设置多个--conf键值对。
我尝试了以下方法来设置多个--conf值,这些都导致错误:
--conf
的两个表参数都相等,并用第二个值覆盖第一个参数中的值。spark.yarn.executor.memoryOverhead=1024 spark.yarn.executor.memoryOverhead=7g spark.yarn.executor.memory=7g
。这会导致无法启动作业。spark.yarn.executor.memoryOverhead=1024, spark.yarn.executor.memoryOverhead=7g, spark.yarn.executor.memory=7g
。这会导致无法启动作业。--conf
字符串将每个键值分开。例如。 spark.yarn.executor.memoryOverhead=1024 --conf spark.yarn.executor.memoryOverhead=7g --conf spark.yarn.executor.memory=7g
。这导致胶水作业挂起。如何在AWS Glue中设置多个--conf表参数?
答案 0 :(得分:0)
您可以按以下方式传递多个参数:
键: --conf
值:spark.yarn.executor.memoryOverhead = 7g --conf spark.yarn.executor.memory = 7g
这对我有用。
答案 1 :(得分:-1)
您可以通过编辑作业并添加作业参数来覆盖参数。我使用的键和值在这里:
键:--conf
值:spark.yarn.executor.memoryOverhead = 7g
这似乎违反直觉,因为设置键实际上在值中,但可以识别。因此,如果您尝试设置spark.yarn.executor.memory,则以下参数将是合适的:
键:--conf
值:spark.yarn.executor.memory = 7g
查找更多信息(我从中添加了此答案):https://stackoverflow.com/a/50122948/10968161