我正在学习使用Hadoop执行与大数据相关的操作。
我需要对分成8个xls文件的数据集合执行一些查询。每个xls文件都有多个工作表,查询只涉及其中一个工作表。
可以在此处下载数据集:http://www.census.gov/hhes/www/hlthins/data/utilization/tables.html
我没有使用hadoop的任何商业发行版来执行我的任务,只需在VmWare中设置一个主机和一个从机VM,其中包含Hadoop,Hive,Pig。
我是Hadoop和大数据的新手,所以如果有人能指导我如何继续前进,我将非常感激。
如果您需要有关查询的信息或其他任何内容,请与我们联系。
感谢。
答案 0 :(得分:3)
在配置单元中,您无法直接从xls将数据加载到表中,就像对txt或csv文件一样。
您有两种选择:
OR
两者都有它们的优点和缺点,但是如果你打算使用与HIVE交互的应用程序来加载,查询,转换等。你可以使用选项1.但是,如果你打算通过脚本/批处理等你可以选择2。