我想使用自己喜欢的编辑器在本地编辑Databricks笔记本,然后使用Databricks Connect在通常通过Web界面访问的Databricks群集上远程运行笔记本。
不幸的是,在网上搜索了几天后,我找不到有关Databricks Connect的详细文档。
我按照上面的PyPI页面上的建议运行databricks-connect configure
,但不确定某些设置。有人可以指导我完成此操作(例如在Web界面中的哪里找到这些值)或提供指向正确文档的链接吗?
我知道某些设置应该是什么,但是我将包括运行databricks-connect configure
时出现的所有信息,以确保其他设置的完整性和益处。
Databricks Host
Databricks Token
Cluster ID
(例如0921-001415-jelly628
)
Org ID
(仅限天蓝色,请参见URL中的?o=orgId
)
Port
(是spark.databricks.service.port
吗?)
而且,我认为这是我最感兴趣的,是否需要对笔记本本身进行任何更改,例如定义SparkContext或其他内容?如果可以,采用什么配置?
我应该如何运行它?运行databricks-connect configure
之后,似乎没有发生任何“魔术”。当我运行jupyter notebook
时,它仍然在本地运行,并且似乎不知道将其转发到远程集群。
更新:
如果您想考虑更具体的内容,在Databricks的Web界面中,dbutils
是预定义的对象。远程运行笔记本时如何使用它?
答案 0 :(得分:1)
我已将其他人的答复标记为答案,但是由于某种原因,该答复现在已消失。
出于我的目的,官方用户指南有效: https://docs.azuredatabricks.net/user-guide/dev-tools/db-connect.html
答案 1 :(得分:1)
简而言之,您需要包括:
spark = SparkSession.builder.getOrCreate()
在脚本开头。笔记本应该可以转换,但是魔术命令(%run等)当然不起作用。
无法使用的零件在此处提供更多详细信息。 set()