应用错误收集

处理来自子目录Hadoop的数据文件

时间：2014-03-13 06:52:06

标签： hadoop mapreduce hdfs

我希望我的hadoop作业从子目录的叶节点获取数据。因此，数据将始终仅存在于具有.dat扩展名的叶节点中。

说明子目录结构：

说a-＆gt; b-＆gt; 1.dat，a-＆gt; c-＆gt; 2.dat

我尝试过fs -put＆＃34; a＆＃34;目录在HDFS上，然后指定＆＃34; a＆＃34;作为hadoop作业的输入，但它失败了。但是，如果dat文件位于＆＃34; a＆＃34;。

之内，则上述方法可以正常工作

任何可能的解决方案？

1 个答案:

答案 0 :(得分：0)

使用多输入格式我们可以读取两个不同格式的文件，两者的结果都可以用于减速器作业。

请仔细查看以下链接。

https://github.com/subbu-m/MultipleInputFormat