将Python脚本提交到Databricks JOB

时间:2019-09-05 17:23:19

标签: pyspark gitlab databricks azure-databricks gitlab-api

是否可以将spark python脚本(.py)文件提交/配置到databricks作业?

我在Pycharm IDE中进行开发,然后将代码推送/提交到gitlab存储库。我的要求是,当将python脚本移至GitLab主分支时,我需要在databricks集群中创建新作业。

如果可以使用gitlab.yml脚本在python脚本上创建databricks作业,我想获得一些建议?

在databricks Job UI中,我可以看到可以使用的火花罐或笔记本,但想知道我们是否可以提供python文件。

谢谢

Yuva

1 个答案:

答案 0 :(得分:1)

该功能目前在Databricks UI中不可用,但可以通过REST API进行访问。您将要使用SparkPythonTask数据结构。

您将找到此示例in the official documentation

curl -n -H "Content-Type: application/json" -X POST -d @- https://<databricks-instance>/api/2.0/jobs/create <<JSON
{
  "name": "SparkPi Python job",
  "new_cluster": {
    "spark_version": "5.2.x-scala2.11",
    "node_type_id": "i3.xlarge",
    "num_workers": 2
  },
  "spark_python_task": {
    "python_file": "dbfs:/docs/pi.py",
    "parameters": [
      "10"
    ]
  }
}JSON

如果您需要有关REST API入门的帮助,请参见here