从多个Excel文件创建Hive表

时间:2015-02-19 17:10:26

标签: excel hive format

将Excel文件加载到Hive表的最佳方法是什么? 是否有命令将它们更改为制表符分隔格式?

2 个答案:

答案 0 :(得分:1)

您可以使用tika解析查看某些内容,或者使用apache pos解析xls电子表格。

https://poi.apache.org/ https://tika.apache.org/

你需要一种java-ish语言来使用这些东西,所以考虑groovy,jython,clojure,scala,或者如果你知道java。

我正在使用hdfs中的一堆xlsx文件做类似的事情,在输出结束于hive之前进行这种预处理。希望您的xlsx工作表有点直接,只是类似于2d数据集。 (嵌入式数据透视表,图表等不会在任何上下文中出现在配置单元中。)

祝你好运,它并不漂亮...... xls是可以使用的凝灰岩,因为它非常灵活。

答案 1 :(得分:0)

您可以尝试使用最新版本的HadoopOffice库,该库具有HiveSerde for Excel文件https://github.com/ZuInnoTe/hadoopoffice/wiki