和标题一样,我自己使用python中的查询ID下载了Qubole结果,但是,有没有一种方法可以使用调度程序作业ID而不是查询ID来下载结果?
感谢。
答案 0 :(得分:0)
您可以使用名为requests
的python包访问Scheduler API
我仍然不确定我的代码是否使用了python的最佳实践,因为我仍然使用硬编码短语per_page=1000000
,每个请求每页将获得1000000结果
url = 'https://api.qubole.com/api/v1.2/scheduler/{}/actions?per_page=1000000'.format(id)
headers = {'content-type': 'application/json', 'X-AUTH-TOKEN': '<YOUR-TOKEN>'}
r = requests.get(url, headers=headers).json()
json_object=[json.dumps(r.get('actions'))]
jsonRDD = sc.parallelize(json_object)
df = spark.read.json(jsonRDD)
您的计划程序的结果应位于command.status
列