Question

我有一些使用存储在S3中的SparkSQL创建的Parquet表。我也想从Impala中使用它们。我还有一个在CDH5上运行的Impala实例，我可以使用Hue访问它。

从Impala实例查询上述数据需要做什么？

Impala Parquet文档似乎主要是将数据导入Parquet。我已经在Parquet中获得了数据，我只想将Impala指向它。我是Impala和Hue的新手，我对Parquet的经验来自SparkSQL。

Answer 1

Impala有experimental support个查询存储在S3中的数据。这是一个示例s='git@bitbucket.org:user/my-repo-name.git' [[ $s =~ ^.*/(.*)\.git$ ]] echo ${BASH_REMATCH[1]}语句，用于处理存储在S3中的Parquet数据，取自上一句中链接的文档：

CREATE TABLE

Impala访问S3

1 个答案: