是否可以将spark python脚本(.py)文件提交/配置到databricks作业?
我在Pycharm IDE中进行开发,然后将代码推送/提交到gitlab存储库。我的要求是,当将python脚本移至GitLab主分支时,我需要在databricks集群中创建新作业。
如果可以使用gitlab.yml脚本在python脚本上创建databricks作业,我想获得一些建议?
在databricks Job UI中,我可以看到可以使用的火花罐或笔记本,但想知道我们是否可以提供python文件。
谢谢
Yuva
答案 0 :(得分:1)
该功能目前在Databricks UI中不可用,但可以通过REST API进行访问。您将要使用SparkPythonTask数据结构。
您将找到此示例in the official documentation:
curl -n -H "Content-Type: application/json" -X POST -d @- https://<databricks-instance>/api/2.0/jobs/create <<JSON
{
"name": "SparkPi Python job",
"new_cluster": {
"spark_version": "5.2.x-scala2.11",
"node_type_id": "i3.xlarge",
"num_workers": 2
},
"spark_python_task": {
"python_file": "dbfs:/docs/pi.py",
"parameters": [
"10"
]
}
}JSON
如果您需要有关REST API入门的帮助,请参见here。