将Hadoop MapReduce限制为特定文件扩展名

时间:2012-05-01 13:00:28

标签: hadoop mapreduce

我正在尝试在只在特定文件扩展名上运行的群集上运行MapReduce作业。我们有一堆异构数据位于集群上,对于这项特殊工作,我只想在.jpg上执行。有没有办法可以在不限制映射器的情况下完成此操作。看起来这应该是你执行工作时容易做的事情。我在想像hadoop fs JobName /users/myuser/data/*.jpg / users / myuser / output。

1 个答案:

答案 0 :(得分:3)

您的示例应该按照编写的方式工作,但是您需要检查您正在调用setInputPaths(Job,String)方法的输入格式,因为这将解析glob字符串“/ users / myuser / data / * .jpg“进入/ users / myuser / data中的各个jpg文件。