这似乎是一个非常常见的用例,但在Hadoop中很难做到(可以使用WholeFileRecordReader类)。 在Dumbo或Pig中它是否完全可能? 有没有人知道使用Dumbo或Pig处理整个文件作为地图任务的方法?
答案 0 :(得分:0)
WholeFileRecordReader是指不拆分输入文件?如果是这样,将mapred.min.split.size定义为一个非常大的值,mapreduce和Pig都会接受它。
答案 1 :(得分:0)
我假设您想在Pig中记录一个文件。如果没有,请在您的问题中更具体。
我不知道Pig存储加载程序一次加载整个文件(在标准发行版或皮卡中)。我建议你自己编写Pig custom loader,这相对容易。