在共享上下文中通过API运行Databricks笔记本作业

时间:2019-06-24 05:58:39

标签: rest apache-spark databricks

在Databricks的REST文档中,您可以使用2.0 API将笔记本任务作为作业提交到集群,也可以使用1.2 API提交命令或python脚本

1.2 API允许您创建上下文,然后可以针对该上下文提交所有后续命令或脚本。这使您可以维护状态(数据框,变量等),这类似于在浏览器中以交互方式运行笔记本

我想要的是能够将我的笔记本提交到相同的上下文中并获得与1.2 API相同的行为,但这似乎是不可能的,这是否有原因吗?还是我想念一些可以做到的事情?

我的用例是我希望能够从API重新运行笔记本并让它记住它的最后状态(在最基本的示例中,只是知道它已经加载了数据帧),但更一般而言,它具有后续功能作业只能运行自上次运行以来发生的变化。

据我所知,如果无法通过2.0 API做到这一点,我有2个选择:

  • 将我的笔记本转换为Python脚本,并在客户端具有一个引导脚本,该脚本在同一上下文中使用1.2 API调用入口点
  • 在笔记本的检查点创建临时表,并可能维护状态变量的特殊变量数据框

这些似乎都不必要地复杂,还有其他想法吗?

0 个答案:

没有答案