标签: hadoop mapreduce hdfs
我希望我的hadoop作业从子目录的叶节点获取数据。因此,数据将始终仅存在于具有.dat扩展名的叶节点中。
说明子目录结构:
说a-> b-> 1.dat,a-> c-> 2.dat
我尝试过fs -put" a"目录在HDFS上,然后指定" a"作为hadoop作业的输入,但它失败了。但是,如果dat文件位于" a"。
任何可能的解决方案?
答案 0 :(得分:0)
使用多输入格式我们可以读取两个不同格式的文件,两者的结果都可以用于减速器作业。
请仔细查看以下链接。
https://github.com/subbu-m/MultipleInputFormat