标签: pyspark amazon-emr aws-data-pipeline
我想使用aws datapipeline计划emr作业。我陷入了一个步骤,每次激活新的数据管道时,我都必须将代码从git复制到服务器,然后pip安装一些模块并一个接一个地运行多个作业。 我已经检查过网络,但找不到任何说明相同内容的教程或示例。
可以解释一下我应该如何进行。 预先感谢。