我正在构建一个 Apache Spark 应用程序,该应用程序在EMR实例中执行。为此,我正在创建一个集群,之后我将步骤添加到集群中以执行Spark应用程序
在Spark应用程序中,我需要对S3执行读/写操作。 要与S3服务进行交互,我需要在 EMR实例中安装 s3cmd 。 另外,在创建EMR集群时,我需要使用--bootstrap-application
安装和配置s3cmd但我需要有关如何使用bootstrap-application
安装和配置s3cmd的详细信息请向我提供有关它的适当信息
答案 0 :(得分:2)
给出了一个将python脚本推送到S3(在本地计算机上使用s3cmd)的示例,这些脚本在EMR应用程序中使用。然后,将源数据推送到S3,EMR应用程序将结果放入S3。您可以在本地计算机上使用s3cmd来推送源数据并下载结果。
如果您的源数据已在S3或AWS中的其他位置,您始终可以创建一个新的EC2实例,在该实例中运行s3cmd以将数据输入正确的S3存储桶进行处理。
答案 1 :(得分:0)
使用自定义引导操作。
“引导操作是在群集节点上运行的脚本 Amazon EMR启动群集。它们在Hadoop启动之前运行 在节点开始处理数据之前。“