Athena:使用LazySimpleSerde跳过Header行

时间:2017-09-27 09:27:57

标签: amazon-web-services hive amazon-athena

想知道是否有可能跳过Aws Athena org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe中的标题行。我试过了tblproperties ( 'skip.header.line.count' = '1' )但是没有用。我标题它适用于OpenCSVSerDe但它似乎只支持string数据类型,这将最终在查询中进行大量工作。

1 个答案:

答案 0 :(得分:1)

我刚试过以下内容:

创建CSV并将其上传到S3:

breed_id, breen_name, category
1,pug,toy
2,German Shepard,working,
3,Scottish Terrier,Working

在Athena中运行以下DDL:

create external table dogs (
  breed_id int, 
  breen_name string, 
  category string
)
ROW FORMAT DELIMITED
 FIELDS TERMINATED BY ','
 LINES TERMINATED BY '\n'
LOCATION 's3://XXXXXXXXXXXXXX/'
TBLPROPERTIES ('skip.header.line.count'='1')
;

然后运行以下查询:

SELECT * FROM "default"."dogs" LIMIT 10;

产生以下结果:

enter image description here