使用Databricks Connect

时间:2019-03-05 18:00:12

标签: jupyter-notebook databricks azure-databricks

我想使用自己喜欢的编辑器在本地编辑Databricks笔记本,然后使用Databricks Connect在通常通过Web界面访问的Databricks群集上远程运行笔记本。

不幸的是,在网上搜索了几天后,我找不到有关Databricks Connect的详细文档。

我按照上面的PyPI页面上的建议运行databricks-connect configure,但不确定某些设置。有人可以指导我完成此操作(例如在Web界面中的哪里找到这些值)或提供指向正确文档的链接吗?

我知道某些设置应该是什么,但是我将包括运行databricks-connect configure时出现的所有信息,以确保其他设置的完整性和益处。

Databricks Host
Databricks Token
Cluster ID(例如0921-001415-jelly628
Org ID(仅限天蓝色,请参见URL中的?o=orgId
Port(是spark.databricks.service.port吗?)

而且,我认为这是我最感兴趣的,是否需要对笔记本本身进行任何更改,例如定义SparkContext或其他内容?如果可以,采用什么配置?

我应该如何运行它?运行databricks-connect configure之后,似乎没有发生任何“魔术”。当我运行jupyter notebook时,它仍然在本地运行,并且似乎不知道将其转发到远程集群。

更新: 如果您想考虑更具体的内容,在Databricks的Web界面中,dbutils是预定义的对象。远程运行笔记本时如何使用它?

2 个答案:

答案 0 :(得分:1)

我已将其他人的答复标记为答案,但是由于某种原因,该答复现在已消失。

出于我的目的,官方用户指南有效: https://docs.azuredatabricks.net/user-guide/dev-tools/db-connect.html

答案 1 :(得分:1)

简而言之,您需要包括:

  

spark = SparkSession.builder.getOrCreate()

在脚本开头。笔记本应该可以转换,但是魔术命令(%run等)当然不起作用。

无法使用的零件在此处提供更多详细信息。 set()