外部Snappy avro数据的Hive表显示压缩是错误的

时间:2018-01-08 11:01:48

标签: hive avro

使用sqoop导入的单个表

...
--as-avrodatafile
--compression-codec ...SnappyCodec
...

在Hue文件浏览器中查看,通过显示消息Output rendered from compressed avro file.

确认它已被压缩

在Hive中创建外部表

create external table customers_avro
stored as avro
location '.../path/'
tblproperties('avro.schema.file'='/path/to/customers.avsc')

但是,使用describe extended tblname查询时会显示compressed:false

...
inputFormat:org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat, outputFormat:org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat, compressed:false, numBuckets:-1, serdeInfo:SerDeInfo(name:null, serializationLib:org.apache.hadoop.hive.serde2.avro.AvroSerDe, parameters:{serialization.format=1})...

是否需要使用tblproperties设置其他任何属性?

1 个答案:

答案 0 :(得分:0)

我建议验证您的数据是否已正确压缩。你可以用它。

Compression codec detection in Hadoop from the command line

另外,知道您的hive和sqoop版本应该有用,尝试从这样的sqoop导入

mlrMBO