如何将xls数据从多个xls文件加载到hive?

时间:2015-04-03 09:37:34

标签: hadoop hive bigdata

我正在学习使用Hadoop执行与大数据相关的操作。

我需要对分成8个xls文件的数据集合执行一些查询。每个xls文件都有多个工作表,查询只涉及其中一个工作表。

可以在此处下载数据集:http://www.census.gov/hhes/www/hlthins/data/utilization/tables.html

我没有使用hadoop的任何商业发行版来执行我的任务,只需在VmWare中设置一个主机和一个从机VM,其中包含Hadoop,Hive,Pig。

我是Hadoop和大数据的新手,所以如果有人能指导我如何继续前进,我将非常感激。

如果您需要有关查询的信息或其他任何内容,请与我们联系。

感谢。

1 个答案:

答案 0 :(得分:3)

在配置单元中,您无法直接从xls将数据加载到表中,就像对txt或csv文件一样。

您有两种选择:

  1. 编写应用程序(例如Java)以读取xls文件并将其转换为可直接加载到配置单元的文本或csv文件。
  2. OR

    1. 您可以创建自己的serde(Serializer或Deserializer)来解析要加载到表中的xls数据。
    2. 两者都有它们的优点和缺点,但是如果你打算使用与HIVE交互的应用程序来加载,查询,转换等。你可以使用选项1.但是,如果你打算通过脚本/批处理等你可以选择2。