应用错误收集

在Amazon EMR上运行带有输入参数的自定义jar文件

时间：2015-01-28 02:51:02

标签： hadoop amazon-web-services amazon-ec2 amazon-s3 amazon-emr

所以，我正在尝试在Amazon EMR上运行WordCount hadoop应用程序。我有自己的数据文件，我上传到abc bucket。我还在abc bucket下添加了wordcount.jar文件。任何人都可以告诉我，当我们创建集群时，我们如何给出数据文件的路径，同时我们还需要给出输出目录路径，如果是，那么我该如何给出输出目录路径？

1 个答案:

答案 0 :(得分：0)

数据文件作为参数传递给Jar，数据文件存在于S3存储桶中。输出也是一个s3存储桶，在这种情况下，您可以使用相同的存储桶，只需在存储桶中有一个目录/输出并将所有输出发送到那里。

https://blog.safaribooksonline.com/2013/05/07/running-hadoop-mapreduce-jobs-on-amazon-emr/

＆＃34;＆＃34;＆＃34;我们的WordCount JAR文件将获取JAR的主文件，后跟您上传输入数据和输出路径的存储桶名称。请注意，您只需提供路径，而不是精确的文件名。另外，请确保输出路径中不存在输出文件。指定输入和输出路径的格式为：s3n：///path。＆＃34;＆＃34;＆＃34;