所以,我正在尝试在Amazon EMR上运行WordCount hadoop应用程序。我有自己的数据文件,我上传到abc bucket
。我还在abc bucket
下添加了wordcount.jar文件。任何人都可以告诉我,当我们创建集群时,我们如何给出数据文件的路径,同时我们还需要给出输出目录路径,如果是,那么我该如何给出输出目录路径?
答案 0 :(得分:0)
数据文件作为参数传递给Jar,数据文件存在于S3存储桶中。输出也是一个s3存储桶,在这种情况下,您可以使用相同的存储桶,只需在存储桶中有一个目录/输出并将所有输出发送到那里。
https://blog.safaribooksonline.com/2013/05/07/running-hadoop-mapreduce-jobs-on-amazon-emr/
"""我们的WordCount JAR文件将获取JAR的主文件,后跟您上传输入数据和输出路径的存储桶名称。请注意,您只需提供路径,而不是精确的文件名。另外,请确保输出路径中不存在输出文件。指定输入和输出路径的格式为:s3n:///path。"""