在Amazon EMR上运行带有输入参数的自定义jar文件

时间:2015-01-28 02:51:02

标签: hadoop amazon-web-services amazon-ec2 amazon-s3 amazon-emr

所以,我正在尝试在Amazon EMR上运行WordCount hadoop应用程序。我有自己的数据文件,我上传到abc bucket。我还在abc bucket下添加了wordcount.jar文件。任何人都可以告诉我,当我们创建集群时,我们如何给出数据文件的路径,同时我们还需要给出输出目录路径,如果是,那么我该如何给出输出目录路径?

1 个答案:

答案 0 :(得分:0)

数据文件作为参数传递给Jar,数据文件存在于S3存储桶中。输出也是一个s3存储桶,在这种情况下,您可以使用相同的存储桶,只需在存储桶中有一个目录/输出并将所有输出发送到那里。

https://blog.safaribooksonline.com/2013/05/07/running-hadoop-mapreduce-jobs-on-amazon-emr/

"""我们的WordCount JAR文件将获取JAR的主文件,后跟您上传输入数据和输出路径的存储桶名称。请注意,您只需提供路径,而不是精确的文件名。另外,请确保输出路径中不存在输出文件。指定输入和输出路径的格式为:s3n:///path。"""