我需要创建一个地图缩减程序,从HDFS读取Excel文件并对其进行一些分析。从那里以excel文件的格式存储输出。我知道TextInputFormat用于从HDFS读取.txt文件,但我应该使用哪种方法或哪种输入格式?
答案 0 :(得分:0)
通常情况下,hadoop对于这种情况来说是过度的,但是一些相关的解决方案
从外部解析文件并转换为hadoop兼容格式
将整个文件作为单个记录see this answer
使用两个链式作业。像2中的第1个,批量读取文件,并将每个记录作为下一个作业的输入发出。