应用错误收集

使用Python代码在Hadoop中处理整个文件（最好在Dumbo中）

时间：2011-08-30 17:19:11

标签： python hadoop apache-pig

这似乎是一个非常常见的用例，但在Hadoop中很难做到（可以使用WholeFileRecordReader类）。在Dumbo或Pig中它是否完全可能？有没有人知道使用Dumbo或Pig处理整个文件作为地图任务的方法？

2 个答案:

答案 0 :(得分：0)

WholeFileRecordReader是指不拆分输入文件？如果是这样，将mapred.min.split.size定义为一个非常大的值，mapreduce和Pig都会接受它。

答案 1 :(得分：0)

我假设您想在Pig中记录一个文件。如果没有，请在您的问题中更具体。

我不知道Pig存储加载程序一次加载整个文件（在标准发行版或皮卡中）。我建议你自己编写Pig custom loader，这相对容易。