Impala访问S3

时间:2015-05-18 23:54:22

标签: amazon-s3 cloudera-cdh hue impala parquet

我有一些使用存储在S3中的SparkSQL创建的Parquet表。我也想从Impala中使用它们。我还有一个在CDH5上运行的Impala实例,我可以使用Hue访问它。

从Impala实例查询上述数据需要做什么?

Impala Parquet文档似乎主要是将数据导入Parquet。我已经在Parquet中获得了数据,我只想将Impala指向它。我是Impala和Hue的新手,我对Parquet的经验来自SparkSQL。

1 个答案:

答案 0 :(得分:2)

Impala有experimental support个查询存储在S3中的数据。这是一个示例s='git@bitbucket.org:user/my-repo-name.git' [[ $s =~ ^.*/(.*)\.git$ ]] echo ${BASH_REMATCH[1]} 语句,用于处理存储在S3中的Parquet数据,取自上一句中链接的文档:

CREATE TABLE