我在HDFS中有以下dir结构的数据:
/exported/2014/07/01/00/SEARCHES/part-m-00000.bz2
part-m-00001.bz2
/exported/2014/07/01/02/SEARCHES/part-m-00000.bz2
part-m-00001.bz2
part-m-00003.bz2
.
.
.
.
/exported/2014/08/01/09/SEARCHES/part-m-00005 .bz2
每个子目录中都有多个部分文件。
我想将此数据集加载到impala表中,因此请使用以下查询来创建表:
CREATE EXTERNAL TABLE搜索(time_stamp TIMESTAMP,..... url STRING,domain STRING)PARTITIONED BY(年INT,月INT,日INT。小时INT)行格式分隔的字段以'\ t'结尾;
然后
ALTER TABLE search ADD PARTITION (year=2014, month=08, day=01) LOCATION '/data/jobs/exported/2014/08/01/*/SEARCHES/';
但是无法加载以下错误:
ERROR: AnalysisException: Failed to load metadata for table: magneticbi.search_mmx
CAUSED BY: TableLoadingException: Failed to load metadata for table: search_mmx
CAUSED BY: RuntimeException: Compressed text files are not supported: part-m-00000.bz2
不确定这样做的正确方法是什么。
任何人都可以提供帮助吗?
由于
答案 0 :(得分:2)
这是一个描述您的选项的link to a table from Cloudera。总结一下:
Impala支持以下压缩编解码器: