使用Impala在HDFS中查询Parquet文件

时间:2019-06-14 10:01:19

标签: hdfs parquet impala

我正在尝试使用Impala读取实木复合地板文件。

impala-shell> SELECT * FROM `/path/in/hdfs/*.parquet`

我知道我可以使用Spark或Drill来做到这一点,但我想知道Impala是否有可能?

谢谢

1 个答案:

答案 0 :(得分:3)

您需要在table文件顶部创建结构化的parquet才能通过Impala查询。

external table指向镶木地板目录的一般示例... Cloudera文档在此处提供了所有方法:

https://www.cloudera.com/documentation/enterprise/latest/topics/impala_parquet.html#parquet_ddl

CREATE EXTERNAL TABLE ingest_existing_files LIKE PARQUET '/user/etl/destination/datafile1.dat'
  STORED AS PARQUET
  LOCATION '/user/etl/destination';