Hive - 从zip文件创建一个表

时间:2011-06-16 22:09:58

标签: hadoop hive hdfs

我有一堆CSV的zip文件,我想从中创建Hive表。我想弄清楚最好的方法是什么。

  • 解压缩文件,将其上传到HDFS。
  • 有没有办法将文件复制到HDFS,解压缩
  • 或者还有其他更好/推荐的方式吗?

1 个答案:

答案 0 :(得分:3)

通常的做法是将CSV文件转换为制表符分隔符或Ctrl A或Ctrl B分隔符,然后将其上传到Hadoop / Hive。

要将文件上传到HDFS,您可以使用以下命令 -

  

hadoop fs -put file_to_uplload hdfs_path

我假设你想自动化这个。在这种情况下,以下说明将有所帮助。

  1. 使用映射到CSV文件fileds的列创建配置单元表(您可以在此步骤中删除不必要的字段)。在hive create table语句中选择分隔符。

  2. 将csv文件转换为分隔格式(Ctrl A或Ctrl B)

  3. 将文件上传到Hive表位置。
  4. 您可以使用python批处理脚本/框架自动执行步骤。

    进一步阅读: http://wiki.apache.org/hadoop/Hive/GettingStarted