应用错误收集

Azure Databrics-从Gen2 DataLake存储运行Spark Jar

时间：2019-09-11 08:22:54

标签： scala azure apache-spark azure-databricks

我正在尝试从Azure Databrics运行火花提交。目前，我可以创建一个作业，并在Databrics工作区中上传jar，然后运行它。

我的查询是：

是否可以访问驻留在GEN2 DataLake存储上的jar，并从Databrics工作区，甚至从Azure ADF进行火花提交？（因为工作区和GEN2存储之间的通信受到保护，因此“ fs.azure.account.key”）
是否可以通过数据溴化笔记本进行火花提交？

2 个答案:

答案 0 :(得分：1)

有没有办法访问驻留在GEN2 DataLake存储中的jar和从Databrics工作区甚至从Azure ADF提交火花？（因为工作空间和GEN2存储之间的通信是受保护的“ fs.azure.account.key”）。不幸的是，您无法访问驻留在Azure存储（例如ADLS Gen2 / Gen1帐户）上的jar。

注意：--jars，--py-files和--files参数支持 DBFS 和 S3 路径。

通常，Jar库存储在dbfs：/ FileStore / jars下。

您需要在dbfs中上传库，并在jar活动中作为参数传递。

有关更多详细信息，请参阅“ Transform data by running a jar activity in Azure Databricks using ADF”。

是否可以通过databricks笔记本进行火花提交？

要回答第二个问题，您可以参考以下工作类型：

参考：SparkSubmit和“ Create a job”

希望这会有所帮助。

如果这回答了您的查询，请同时单击“标记为答案”和“上投票”。而且，如果您还有其他疑问，请告诉我们。

答案 1 :(得分：-1)

最后我弄清楚了如何运行它：

您可以从ADF运行Databricks jar，并将其附加到现有集群，该集群将在集群中配置adls密钥。
无法从笔记本计算机上进行火花提交。但是您可以在Jobs中创建Spark作业，也可以使用Databricks Run Sumbit API进行Spark提交。