Map在Amazon上减少工作:自定义jar的参数

时间:2010-06-13 06:46:28

标签: amazon-s3 mapreduce

这是我在其管理控制台中首次尝试在AWS上使用Map Reduce。 您已经在AWS S3上上传了我在Hadoop 0.18上开发的runnable jar,它可以在我的本地机器上运行。 正如在文档中所描述的那样,我已经将输入和输出的S3路径作为jar的参数传递:好吧,但问题是第三个参数是另一个路径(作为字符串)到我需要在工作时加载的文件正在执行中。该文件也驻留在S3存储桶上,但似乎我的jar无法识别路径,并且在尝试加载时遇到了FileNotFound异常。这很奇怪,因为这是一条与其他两条路径完全相同的路径......

有人有任何想法吗?

谢谢

卢卡

2 个答案:

答案 0 :(得分:0)

这是AWS的问题,请查看http://meghsoft.com/blog/的第2课。看看你是否可以使用FileSystem.get(uri,conf)来获取支持你的路径的文件系统。

希望这有帮助。

SONAL

答案 1 :(得分:0)

SONAL,

谢谢你的建议。 最后,解决方案使用的是DistributedCache。

在运行作业之前加载文件我可以通过覆盖confiure方法并从分布式缓存中获取文件(已经加载文件)来访问我需要的Map类。

谢谢,

卢卡