EmrActivity的多个输入

时间:2013-11-21 00:55:52

标签: hadoop amazon-s3 amazon-data-pipeline

根据Data Pipeline文档,EMRActivity Step命令使用的格式与常规EMR作业不同。

这是一个简化的例子:

/home/hadoop/contrib/streaming/hadoop-streaming.jar,-input,s3://mybucket/folder1/*.gz,-output,s3://output,-mapper=mapper,-reduce=reducer.

假设我需要从多个存储桶中提取数据,如何将这些多个输入传递给单个步骤命令?

在常规的EMR作业设置中,我只是用逗号分隔输入路径,但这似乎不适用于EmrActivity。

我对EmrActivity的解决方案非常感兴趣,而不是设置复制活动以将我的数据带到临时的唯一位置。

感谢。

1 个答案:

答案 0 :(得分:0)

验证json需要使用cli转义。试试" \,"如果从CLI使用json。 (\,)将在控制台上运行。