在Bluemix上执行Apache Spark SQL的作业的调度程序

时间:2015-11-11 21:58:34

标签: apache-spark scheduled-tasks ibm-cloud spark-notebook

我在Bluemix中使用Apache Spark。 我想为sparksql作业实现调度程序。我在一篇描述日程安排的博客中看到了link。但尚不清楚如何更新清单。也许还有其他方法来安排我的工作。

1 个答案:

答案 0 :(得分:1)

清单文件用于指导云代工(cf)应用程序的部署。因此,在您的情况下,听起来您希望部署充当SparkSQL调度程序的cf应用程序,并使用清单文件声明您的应用程序不需要任何Web应用程序路由内容,或其他任何用户 - 面对应用程序,因为您只想运行后台计划程序。这一切都很好,cf docs将帮助您实现这一目标。

但是,您今天无法为Bluemix Spark Service运行SparkSQL调度程序,因为它只通过Bluemix的Data-Analytics部分支持Jupyter笔记本;即,仅笔记本UI。您需要一个可以从您的调度程序cf app驱动的Spark API;例如spark-submit类型的东西,你可以创建你的Spark上下文然后运行程序,比如你提到的SparkSQL。该API应该是Apache Spark Bluemix服务。

更新:spark-submit在2016年第1季度末的某个时间点可用。它是一个shell脚本,但在其内部通过curl进行REST调用。 REST API似乎还不受支持,但要么你可以在调度程序中调用脚本,要么冒冒险直接调用REST API并希望它不会改变并打破你。