是否可以从adf连接到databricks deltalake表

时间:2019-09-13 05:46:33

标签: azure-data-factory azure-databricks delta-lake

我正在寻找一种能够从ADF和其他Azure服务(例如数据目录)连接到Databricks deltalake表的方法。我没有在ADF数据源中看到databricks数据存储。

关于类似问题-Is possible to read an Azure Databricks table from Azure Data Factory?

@simon_dmorias似乎建议使用ODBC连接来连接到数据块表。

我尝试设置ODBC连接,但是需要设置IR。创建IR时,有2个选项。自托管和链接自托管。我试图创建自托管的IR,但它需要在本地桌面上安装,并且可能更适合于内部odbc连接。我无法在链接的服务上使用IR。

我已经能够将powerbi与databricks deltalake表连接起来,并计划在这里使用相同的凭据。这是参考链接-

https://docs.azuredatabricks.net/user-guide/bi/power-bi.html

任何指导都会有所帮助

3 个答案:

答案 0 :(得分:1)

请参考Azure Databricks官方文档Azure Data FactoryUser Guide > Developer Tools > Managing Dependencies in Data Pipelines部分。您将在主题中看到有关如何使用Databricks Notebook活动创建Databricks笔记本并运行它以在Azure Data Factory中执行传输数据任务的主题中的两个Azure文档列表,如下所示。我认为这将帮助您实现您的需求。

  1. Run a Databricks notebook with the Databricks Notebook Activity in Azure Data Factory
  2. Transform data by running a Databricks notebook

答案 1 :(得分:0)

可以,但是非常复杂。您需要将Azure数据工厂中的ODBC连接器与自托管运行时一起使用。

ADF可以使用ODBC(https://docs.microsoft.com/en-us/azure/data-factory/connector-odbc)连接。它确实需要自托管的IR。假设您安装了正确的驱动程序,则可以配置与Databricks群集的ODBC连接。

可以在Databricks工作区(https://docs.microsoft.com/en-us/azure/azure-databricks/connect-databricks-excel-python-r)的群集设置屏幕中找到ODBC设置的连接详细信息。

此过程与您为PowerBI发布的过程非常相似。

答案 2 :(得分:0)

实际上,我认为通过使用当前版本的Azure数据目录上可用的ODBC连接,可以直接从Databricks工作区中的任何表中获取元数据,这将是更好的本机连接器,但是现在如果您想试试看吧,只需填写以下信息(在Azure数据目录发布应用程序上):

驱动程序: Microsoft Spark ODBC驱动程序(必须在您的系统上安装)

连接字符串: host = eastus.azuredatabricks.net; port = 443; SSL = 1; HTTPPath = sql / protocolv1 / o / XXXXXXXXXXXXXXX / XXXX-XXXXXX-XXXXXX; transportMode = http; AuthMech = 8

用户:令牌

密码:dapiXXXXXXXXXXXXXXXXXXXXX

然后将数据库字段留空