我试过研究这个,但没有找到有用的信息。我有一个M / R工作已经从镶木地板读取(没有分区,使用节俭模式)。我需要向进程中添加另一组输入文件,这些文件不是镶木地板格式,它们只是常规的csv文件。 任何人都知道这是否可能或如何做到这一点?
答案 0 :(得分:0)
没关系,我想我在另一篇与镶木地板无关的帖子中找到了我需要的东西。 Using multiple InputFormat classes while configuring MapReduce job
以下是我从答案中获取的信息,并根据我自己的解决方案进行了调整:
MultipleInputs.addInputPath(job, new Path("/path/to/parquet"), ParquetInputFormat.class, ParquetMapper.class);
MultipleInputs.addInputPath(job, new Path("/path/to/txt"), TextInputFormat.class, TextMapper.class);