我想制作一个自动Spark作业提交系统/程序。 当然,系统需要在提交Spark作业之前先配置HDInsight。 此外,系统按计划提交火花作业(例如,7PM提交作业1,晚上9点提交作业2)
实现这些目标的最佳方式是什么?
c.f)我能做什么
答案 0 :(得分:0)
听起来Azure Data Factory可以满足您的需求。来自他们的网站:
“Data Factory允许您创建数据驱动的工作流程,以在内部部署和云数据存储之间移动数据,以及使用Azure HDInsight和Azure Data Lake Analytics等计算服务处理/转换数据。执行您需要的操作的管道,您可以安排它定期运行(每小时,每天,每周等)。“
<强>资源:强> https://docs.microsoft.com/en-us/azure/data-factory/data-factory-faq
答案 1 :(得分:0)
听起来你想按计划自动运行你的火花作业。因此,我认为使用Oozie非常适合您当前的场景,请参阅Windows或Linux的Azure官方教程,以了解有关Oozie的概念。同时,教程Use time-based Oozie coordinator with Hadoop in HDInsight to define workflows and coordinate jobs
介绍了如何通过时间触发器来完成它。作为参考,hortonworks线程显示了在HDP上从Oozie Workflow运行Spark作业的详细步骤(Azure HDInsight基于HDP)。
希望它有所帮助。
答案 2 :(得分:0)
您可以使用.Net SDK或Powershell自动配置HDInsight实例。
我会按照here
的说明使用Livy提交Spark作业