从目录中读取文件以创建ZIP hadoop

时间:2012-06-01 13:22:49

标签: map hadoop zip reduce

我正在寻找hadoop示例,比wordcount示例更复杂。

我想做什么它读取hadoop目录中的文件并获取zip,所以我想收集map类中的文件并在reduce类中创建zip文件。

任何人都可以给我一个教程或示例的链接,而不是可以帮我构建它吗?

我不希望任何人为我这样做,我要求提供比wordaccount更好的示例链接。

如果您需要,我几乎可以得到它:https://github.com/flopezluis/testing-hadoop

感谢@markkerzner

1 个答案:

答案 0 :(得分:0)

如果您的目标是规范化记录中的结构化数据,从多个输入中进行处理,然后对其进行处理。基于此,我认为你真的需要看看过去帮助过我的this article。它包括如何使用Hadoop / MapReduce规范化数据并提供基于Java的源代码,如下所示:

  • 步骤1:从原始数据中提取列值对。
  • 步骤2:提取不在主ID文件中的列值对
  • 步骤3:计算主文件中每列的最大ID
  • 步骤4:计算不匹配值的新ID
  • 步骤5:将新ID与现有主ID合并
  • 步骤6:使用ID替换原始数据中的值

在JAVA中使用新的Writable和InputFormat类还有另一个关于读取和编写常规记录结构的方法的示例。看看here