我有一个Excel文件,它在HDFS中有很多张(大约50张)。我必须使用mapreduce从一张Excel文件中读取。任何人都可以建议我该怎么做?
答案 0 :(得分:0)
这里建议采用一种方法 - Reading a excel file in hadoop map reduce
否则有人已经创建了excel输入格式作为此类问题的标准解决方案。阅读本文 - https://sreejithrpillai.wordpress.com/2014/11/06/excel-inputformat-for-hadoop-mapreduce/
github项目有代码库。
请看这里 - https://github.com/sreejithpillai/ExcelRecordReaderMapReduce/
希望这应该给你一个起点。
答案 1 :(得分:0)
另一个替代方案是HadoopOffice库,它允许您在Hadoop / Spark中读/写Excel文档。