使用Databricks中的现有群集的Azure数据工厂

时间:2019-05-07 22:55:53

标签: azure-data-factory azure-databricks

我已经在Azure数据工厂中创建了一个管道。我创建了一个Databricks工作区,笔记本(带有一些代码)和一个集群。我创建了从ADF到DB的连接。我测试了连接。所有指示灯均为绿色。我发布了ADF管道。

当我触发作业时,它表示成功。但是在Databricks中什么也没有发生。没有在数据库中创建作业。笔记本单元中的代码显然未执行。 (我知道这一点,因为代码会显示当前时间。)

有人成功做到了吗?

需要明确的是,我希望Data Factory在Databricks中使用现有的 群集,而不要创建新的群集。我已经在管道设置参数中为集群命名。

2 个答案:

答案 0 :(得分:0)

请参考本教程:Run a Databricks notebook with the Databricks Notebook Activity in Azure Data Factory

在本教程中,您将使用Azure门户创建一个Azure Data Factory管道,该管道针对Databricks作业群集执行一个Databricks笔记本。还会在执行期间将Azure Data Factory参数传递到Databricks笔记本。

您将在本教程中执行以下步骤:

  1. 创建数据工厂。
  2. 创建使用Databricks Notebook活动的管道。
  3. 触发管道运行。
  4. 监视管道运行。

区别之一是您不需要创建new job cluster,选择use an existing cluster

希望这会有所帮助。

答案 1 :(得分:0)

已解决。问题是笔记本(包含我的代码)在我的User笔记本文件夹中。数据工厂无权查看/使用我的笔记本。我在“共享”文件夹中创建了相同的笔记本,一切正常。

我将指出,如果看不见或使用命名的笔记本,则ADF应发出错误/警告。 ADF管道经验证正常,报告运行成功,但仅默默失败。