我正在尝试使用aws cli启动EMR集群。有两种方法可以在aws cli中提供引导操作。
使用JSON,这是我目前使用的,但它变得非常混乱,因为所有这些都是在bash脚本中,并且很难格式化json
使用他们的列表命令
从他们的网站:
import numpy as np
with file("data.csv", "rb") as f:
title = f.readline() # if your data have a title line.
data = np.loadtxt(f, delimiter=",") # if your data splitted by ","
print np.sum(data, axis=0) # sum along 0 axis to get the sum of every column
速记语法:
--bootstrap-actions (list)
我能够以这种方式获得1个引导操作,但是当我尝试添加第二个时,它只执行我上次列出的任何内容
例如:
Path=string,Args=string,string,Name=string ...
只执行string2。有谁知道这个的正确格式?
答案 0 :(得分:6)
它们应该以空格分隔。
从AWS CLI create-cluster文档的添加创建Amazon EMR集群的引导操作列表部分:
aws emr create-cluster --bootstrap-actions Path=s3://mybucket/myscript1,Name=BootstrapAction1,Args=[arg1,arg2] Path=s3://mybucket/myscript2,Name=BootstrapAction2,Args=[arg1,arg2] --release-label emr-4.0.0 --instance-groups InstanceGroupType=MASTER,InstanceCount=1,InstanceType=m3.xlarge InstanceGroupType=CORE,InstanceCount=2,InstanceType=m3.xlarge --auto-terminate