在s3的木条地板蜂房表

时间:2016-08-05 13:59:02

标签: amazon-s3 hive cloudera-cdh parquet

我正在尝试(在s3上创建镶木地板蜂巢表失败)。

create external table sequencefile_s3
(user_id bigint, 
creation_dt string
)
stored as sequencefile location 's3a://bucket/sequencefile';

序列文件完美无缺。

create external table parquet_s3
(user_id bigint,
creation_dt string)
stored as parquet location 's3a://bucket/parquet';

insert into parquet_s3
select * from hdfs_data;

镶木地板不起作用。 文件在S3桶/文件夹上创建,选择count(*)有效,但select * from parquet_s3 limit 10不起作用。

其他说明我正在AWS或EC2之外运行cloudera发行版5.8。 S3a配置正确(我可以通过distcp复制文件,s3 sequencefile和textfile外部表工作正常)。

1 个答案:

答案 0 :(得分:0)

首先,您不清楚自己的问题...
有什么问题吗?
另外,错误日志非常重要,运行时会得到什么输出以及什么命令?
我现在只能说的是,Hive拥有自己的SEQUENCEFILE读取器和SEQUENCEFILE写入器库,用于读取和写入序列文件。
它使用以下程序包中的SEQUENCEFILE输入和输出格式:

  • org.apache.hadoop.mapred.SequenceFileInputFormat
  • org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat

在创建镶木表时,请使用下表属性语句,然后重试

  

tblproperties(“ parquet.compress” =“ SNAPPY”);