我正在尝试使用如下所示的powershell对我的HDInsight群集运行hql文件:
$hiveJobDefinition = New-AzureRMHDInsightHiveJobDefinition -Query $queryString
$hiveJob = Start-AzureRMHDInsightJob -ClusterName $clusterName -JobDefinition $hiveJobDefinition -ClusterCredential $creds
但是我可以在yarn UI中看到该应用程序只是处于等待状态,等待资源,并且至少有24小时没有运行。同一件事在ADF管道中可以作为HDInsightSpark活动轻松运行,在其中我可以在sparkconfig中定义资源。我想通过Powershell来做同样的事情,但是我不知道要怎么做。文档(https://docs.microsoft.com/en-us/powershell/module/azurerm.hdinsight/new-azurermhdinsighthivejobdefinition?view=azurermps-6.13.0)提到了一个参数“ defines”,我认为这是用来设置spark配置的参数。但是我在任何地方都找不到一个具体提及如何使用它的示例。我要定义的spark配置值如下所示。有什么方法可以做到这一点?
"spark.app.name": "my app",
"spark.executor.instances": "40",
"spark.executor.memory": "12g",
"spark.driver.memory": "12g",
"spark.executor.cores": 6,
"spark.memory.useLegacyMode": true,
"spark.storage.memoryFraction": "0.01",
"spark.shuffle.memoryFraction": "0.80",
"spark.yarn.executor.memoryoverhead": "1050",
"spark.serializer": "org.apache.spark.serializer.KryoSerializer",
"spark.yarn.queue": "thriftsvr"