配置单元:将HDFS中的gzip压缩CSV以只读方式加载到表中

时间:2018-06-29 09:58:57

标签: hive computer-vision gzip

我有一个hdfs文件夹,其中包含许多csv.gz,并且都具有相同的架构。我的客户需要通过Hive读取这些表的内容。

我尝试申请https://cwiki.apache.org/confluence/display/Hive/CompressedStorage。但是它会移动文件,而我需要将其保留在其初始目录中。

另一个问题是,我应该一个一个地加载每个文件,我宁愿从目录中创建一个表,而不是单独管理文件。

我根本不掌握Hive。他有可能吗?

1 个答案:

答案 0 :(得分:0)

是的,可以通过Hive实现。您可以创建一个外部表,并引用包含HDFS文件的现有gzip位置。数据的架构应在表创建期间指定。

hive> CREATE EXTERNAL TABLE my_data 
      (
        column_1 int,
        column_2 string
      )
      LOCATION 'hdfs:///my_data_folder_with_gzip_files';