如何从mapreduce中的Excel文件中读取?

时间:2015-09-09 10:04:18

标签: hadoop mapreduce

我有一个Excel文件,它在HDFS中有很多张(大约50张)。我必须使用mapreduce从一张Excel文件中读取。任何人都可以建议我该怎么做?

2 个答案:

答案 0 :(得分:0)

这里建议采用一种方法 - Reading a excel file in hadoop map reduce

否则有人已经创建了excel输入格式作为此类问题的标准解决方案。阅读本文 - https://sreejithrpillai.wordpress.com/2014/11/06/excel-inputformat-for-hadoop-mapreduce/

github项目有代码库。

请看这里 - https://github.com/sreejithpillai/ExcelRecordReaderMapReduce/

希望这应该给你一个起点。

答案 1 :(得分:0)

另一个替代方案是HadoopOffice库,它允许您在Hadoop / Spark中读/写Excel文档。

https://github.com/ZuInnoTe/hadoopoffice/wiki