我在Hive(hadoop 2.6.4.0-91)上使用TDCH连接器从sqoop中读取压缩文件时遇到困难。 Hive无法识别文件。
org.apache.hive.service.cli.HiveSQLException:sample_file不是 实木复合地板文件。尾部的预期魔术数[80,65,82,49]但发现 [53,52,56,10]
但是,我在两侧都指定了类似的选项:
Sqoop导入
-D mapreduce.output.fileoutputformat.compress=true
-D mapreduce.output.fileoutputformat.compress.type=BLOCK
-D mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec
...
--as-parquetfile
配置单元表定义
CREATE EXTERNAL TABLE IF NOT EXISTS test_parquet
…
STORED AS PARQUET
LOCATION '/hive/test_parquet/'
TBLPROPERTIES ("parquet.compression"="SNAPPY");
您对解决此问题有任何建议吗?