Azure Databrics-从Gen2 DataLake存储运行Spark Jar

时间:2019-09-11 08:22:54

标签: scala azure apache-spark azure-databricks

我正在尝试从Azure Databrics运行火花提交。目前,我可以创建一个作业,并在Databrics工作区中上传jar,然后运行它。

我的查询是:

  1. 是否可以访问驻留在GEN2 DataLake存储上的jar,并从Databrics工作区,甚至从Azure ADF进行火花提交? (因为工作区和GEN2存储之间的通信受到保护,因此“ fs.azure.account.key”)

  2. 是否可以通过数据溴化笔记本进行火花提交?

2 个答案:

答案 0 :(得分:1)

  

有没有办法访问驻留在GEN2 DataLake存储中的jar和   从Databrics工作区甚至从Azure ADF提交火花?   (因为工作空间和GEN2存储之间的通信是   受保护的“ fs.azure.account.key”)。不幸的是,您无法访问   驻留在Azure存储(例如ADLS Gen2 / Gen1帐户)上的jar。

注意:--jars,--py-files和--files参数支持 DBFS S3 路径。

通常,Jar库存储在dbfs:/ FileStore / jars下。

您需要在dbfs中上传库,并在jar活动中作为参数传递。

有关更多详细信息,请参阅“ Transform data by running a jar activity in Azure Databricks using ADF”。

  

是否可以通过databricks笔记本进行火花提交?

要回答第二个问题,您可以参考以下工作类型:

enter image description here

参考:SparkSubmit和“ Create a job

希望这会有所帮助。


如果这回答了您的查询,请同时单击“标记为答案”和“上投票”。而且,如果您还有其他疑问,请告诉我们。

答案 1 :(得分:-1)

最后我弄清楚了如何运行它:

  1. 您可以从ADF运行Databricks jar,并将其附加到现有集群,该集群将在集群中配置adls密钥。

  2. 无法从笔记本计算机上进行火花提交。但是您可以在Jobs中创建Spark作业,也可以使用Databricks Run Sumbit API进行Spark提交。