我有一些使用存储在S3中的SparkSQL创建的Parquet表。我也想从Impala中使用它们。我还有一个在CDH5上运行的Impala实例,我可以使用Hue访问它。
从Impala实例查询上述数据需要做什么?
Impala Parquet文档似乎主要是将数据导入Parquet。我已经在Parquet中获得了数据,我只想将Impala指向它。我是Impala和Hue的新手,我对Parquet的经验来自SparkSQL。
答案 0 :(得分:2)
Impala有experimental support个查询存储在S3中的数据。这是一个示例s='git@bitbucket.org:user/my-repo-name.git'
[[ $s =~ ^.*/(.*)\.git$ ]]
echo ${BASH_REMATCH[1]}
语句,用于处理存储在S3中的Parquet数据,取自上一句中链接的文档:
CREATE TABLE