我有一个hdfs文件夹,其中包含许多csv.gz,并且都具有相同的架构。我的客户需要通过Hive读取这些表的内容。
我尝试申请https://cwiki.apache.org/confluence/display/Hive/CompressedStorage。但是它会移动文件,而我需要将其保留在其初始目录中。
另一个问题是,我应该一个一个地加载每个文件,我宁愿从目录中创建一个表,而不是单独管理文件。
我根本不掌握Hive。他有可能吗?
答案 0 :(得分:0)
是的,可以通过Hive
实现。您可以创建一个外部表,并引用包含HDFS
文件的现有gzip
位置。数据的架构应在表创建期间指定。
hive> CREATE EXTERNAL TABLE my_data
(
column_1 int,
column_2 string
)
LOCATION 'hdfs:///my_data_folder_with_gzip_files';