亚马逊网络服务EMR文件系统

时间:2014-10-20 07:10:59

标签: java hadoop amazon-web-services amazon-s3 elastic-map-reduce

我正在尝试在AWS EMR集群上运行作业。我得到的问题如下:

aws java.io.IOException:没有用于scheme的文件系统:hdfs

我不知道我的问题究竟在哪里(在我的java jar工作或工作配置中)

在我的S3存储桶中我正在创建一个文件夹(输入),并在其中使用我的数据放入一堆文件。然后在参数Im中给出输入文件夹的路径,然后将相同的路径用作FileInputPath.getInputPath(args [0])。

我的问题是 - 首先,作业将获取输入文件夹中的所有文件并对其进行全部处理,或者我必须提供每个文件的所有路径?

第二个问题 - 我如何解决上述异常?

由于

1 个答案:

答案 0 :(得分:0)

将输入文件保存在S3中。例如S3:// mybucket /输入/ 将所有文件保存在我的桶下的输入文件夹中。

在你的地图中减少使用代码如下

FileInputFormat.addInputPath(job,"s3n://mybucket/input/")

这将自动处理输入文件夹下的所有文件。