我想知道如何在hive外部表中压缩包含Json数据的Parquet文件。怎么做到呢?
我已经创建了这样的外部表:
create table parquet_table_name3(id BIGINT,created_at STRING,source STRING,favorited BOOLEAN) ROW FORMAT SERDE 'parquet.hive.serde.ParquetHiveSerDe' LOCATION '/user/cloudera/parquet2';
我设置了压缩属性
set parquet.compression=GZIP;
并通过执行
压缩我的输入Parquet文件GZIP <file name> ( i.e 000000_0.Parquet)
之后我将GZIP文件加载到hdfs位置/user/cloudera/parquet2
接下来我尝试运行以下查询运行
select * from parquet_table_name3;
我得到了比较结果
NULL NULL NULL NULL
NULL NULL NULL NULL
你能告诉我为什么我得到空值而不是结果,如何在hive外表中进行拼花文件压缩(如果它包含json数据)?有人可以帮我压缩蜂巢外部表吗?