可以使用Parquet文件和Text(csv)文件作为同一M / R作业的输入吗?

时间:2016-01-25 19:40:44

标签: mapreduce thrift parquet

我试过研究这个,但没有找到有用的信息。我有一个M / R工作已经从镶木地板读取(没有分区,使用节俭模式)。我需要向进程中添加另一组输入文件,这些文件不是镶木地板格式,它们只是常规的csv文件。 任何人都知道这是否可能或如何做到这一点?

1 个答案:

答案 0 :(得分:0)

没关系,我想我在另一篇与镶木地板无关的帖子中找到了我需要的东西。 Using multiple InputFormat classes while configuring MapReduce job

以下是我从答案中获取的信息,并根据我自己的解决方案进行了调整:

MultipleInputs.addInputPath(job, new Path("/path/to/parquet"), ParquetInputFormat.class, ParquetMapper.class);
MultipleInputs.addInputPath(job, new Path("/path/to/txt"), TextInputFormat.class, TextMapper.class);