使用Python代码在Hadoop中处理整个文件(最好在Dumbo中)

时间:2011-08-30 17:19:11

标签: python hadoop apache-pig

这似乎是一个非常常见的用例,但在Hadoop中很难做到(可以使用WholeFileRecordReader类)。 在Dumbo或Pig中它是否完全可能? 有没有人知道使用Dumbo或Pig处理整个文件作为地图任务的方法?

2 个答案:

答案 0 :(得分:0)

WholeFileRecordReader是指不拆分输入文件?如果是这样,将mapred.min.split.size定义为一个非常大的值,mapreduce和Pig都会接受它。

答案 1 :(得分:0)

我假设您想在Pig中记录一个文件。如果没有,请在您的问题中更具体。

我不知道Pig存储加载程序一次加载整个文件(在标准发行版或皮卡中)。我建议你自己编写Pig custom loader,这相对容易。