标签: apache-spark pyspark emr
我在EMR集群上有几个火花作业,使用必须定期运行且由Jenkins提交的纱线。目前,Jenkins机器将ssh进入EMR上的主节点,其中代码的副本已准备好在要执行的文件夹中。我希望能够将我的repo克隆到jenkins工作区并提交Jenkins的代码以便在集群上执行。有一个简单的方法吗?从Jenkins部署spark的最佳方法是什么?
答案 0 :(得分:1)
您可以使用此rest api来调用Jenkins的http请求来启动/停止作业
答案 1 :(得分:0)
如果你在Jenkins中使用Python,使用Boto3实现脚本是一个好的,简单的,灵活的和强大的选项。
您可以管理EMR(So Spark)创建完整群集或将作业添加到现有群集。 此外,使用相同的库,您可以管理所有AWS服务。