我正在尝试从Azure Databrics运行火花提交。目前,我可以创建一个作业,并在Databrics工作区中上传jar,然后运行它。
我的查询是:
是否可以访问驻留在GEN2 DataLake存储上的jar,并从Databrics工作区,甚至从Azure ADF进行火花提交? (因为工作区和GEN2存储之间的通信受到保护,因此“ fs.azure.account.key”)
是否可以通过数据溴化笔记本进行火花提交?
答案 0 :(得分:1)
有没有办法访问驻留在GEN2 DataLake存储中的jar和 从Databrics工作区甚至从Azure ADF提交火花? (因为工作空间和GEN2存储之间的通信是 受保护的“ fs.azure.account.key”)。不幸的是,您无法访问 驻留在Azure存储(例如ADLS Gen2 / Gen1帐户)上的jar。
注意:--jars,--py-files和--files参数支持 DBFS 和 S3 路径。
通常,Jar库存储在dbfs:/ FileStore / jars下。
您需要在dbfs中上传库,并在jar活动中作为参数传递。
有关更多详细信息,请参阅“ Transform data by running a jar activity in Azure Databricks using ADF”。
是否可以通过databricks笔记本进行火花提交?
要回答第二个问题,您可以参考以下工作类型:
参考:SparkSubmit和“ Create a job”
希望这会有所帮助。
如果这回答了您的查询,请同时单击“标记为答案”和“上投票”。而且,如果您还有其他疑问,请告诉我们。
答案 1 :(得分:-1)
最后我弄清楚了如何运行它:
您可以从ADF运行Databricks jar,并将其附加到现有集群,该集群将在集群中配置adls密钥。
无法从笔记本计算机上进行火花提交。但是您可以在Jobs中创建Spark作业,也可以使用Databricks Run Sumbit API进行Spark提交。