自动化HDInsight Spark配置并按计划提交作业?

时间:2017-04-09 01:22:10

标签: azure apache-spark automation hdinsight

我想制作一个自动Spark作业提交系统/程序。 当然,系统需要在提交Spark作业之前先配置HDInsight。 此外,系统按计划提交火花作业(例如,7PM提交作业1,晚上9点提交作业2)

实现这些目标的最佳方式是什么?

c.f)我能做什么

  • 使用Powershell配置HDIsinght
  • 使用Livy提交Spark职位

3 个答案:

答案 0 :(得分:0)

听起来Azure Data Factory可以满足您的需求。来自他们的网站:

“Data Factory允许您创建数据驱动的工作流程,以在内部部署和云数据存储之间移动数据,以及使用Azure HDInsight和Azure Data Lake Analytics等计算服务处理/转换数据。执行您需要的操作的管道,您可以安排它定期运行(每小时,每天,每周等)。“

<强>资源: https://docs.microsoft.com/en-us/azure/data-factory/data-factory-faq

答案 1 :(得分:0)

听起来你想按计划自动运行你的火花作业。因此,我认为使用Oozie非常适合您当前的场景,请参阅WindowsLinux的Azure官方教程,以了解有关Oozie的概念。同时,教程Use time-based Oozie coordinator with Hadoop in HDInsight to define workflows and coordinate jobs介绍了如何通过时间触发器来完成它。作为参考,hortonworks线程显示了在HDP上从Oozie Workflow运行Spark作业的详细步骤(Azure HDInsight基于HDP)。

希望它有所帮助。

答案 2 :(得分:0)

您可以使用.Net SDKPowershell自动配置HDInsight实例。

我会按照here

的说明使用Livy提交Spark作业