用于Excel的Hadoop InputFormat

时间:2014-02-17 06:47:32

标签: map reduce

我需要创建一个地图缩减程序,从HDFS读取Excel文件并对其进行一些分析。从那里以excel文件的格式存储输出。我知道TextInputFormat用于从HDFS读取.txt文件,但我应该使用哪种方法或哪种输入格式?

1 个答案:

答案 0 :(得分:0)

通常情况下,hadoop对于这种情况来说是过度的,但是一些相关的解决方案

  1. 从外部解析文件并转换为hadoop兼容格式

  2. 将整个文件作为单个记录see this answer

  3. 阅读
  4. 使用两个链式作业。像2中的第1个,批量读取文件,并将每个记录作为下一个作业的输入发出。