如何在AWS EMR集群上设置python Spark Job的依赖组件

时间:2018-10-25 14:24:17

标签: pyspark amazon-emr

我写了一个spark程序,需要在EMR集群上执行。但是python程序使用了一些依赖的文件和模块。那么,有什么办法可以在正在运行的集群上设置依赖的组件? 我们是否可以挂载s3存储桶并挂载一个群集节点,并将所有相关组件放在s3上?这是一个好主意吗?使用Python如何将s3存储桶安装在EMR上?

1 个答案:

答案 0 :(得分:0)

  • (在集群创建期间):您可以使用Amazon EMR引导程序custom actions,该功能能够在创建集群时执行bash脚本。您可以使用此脚本安装所有从属组件。引导操作将在群集的所有节点上执行。

  • (在正在运行的集群上):您可以使用Amazon EMR步骤选项创建一个s3-dist-cp命令运行器步骤,以从s3复制文件。