通过Impala压缩的Parquet

时间:2016-04-07 07:50:04

标签: impala parquet

我们定义了很多impala表,并假设我们正在使用Snappy压缩。 (镶木地板文件)

然而,没有人真正知道我们在现有表上实际使用的压缩类型。

impala文档似乎没有指定如何从现有表中获取压缩类型。

有没有办法通过impala找到使用过的压缩类型?

1 个答案:

答案 0 :(得分:2)

截至目前,Impala中没有命令会告诉您在存储为镶木地板的表中使用的压缩类型,但有一个解决方法。你可以做的是查看表格中的一个镶木地板文件,然后使用parquet-tools元命令查看正在使用的压缩。

-- step1) run hdfs dfs -ls to determine the location and name for a parquet file
hdfs dfs -ls /yourTableLocationPath
-- step2) parquet-tools really only works locally right now so you will need to copy the file to a local directory
hdfs dfs -get /yourTableLocationPath/yourFileName /yourLocalPath
-- step3) run parquet-tools meta command
parquet-tools meta /yourLocalPath/yourFileName

parquet-tools元命令的输出将显示行组输出下使用的压缩类型。