ORC文件和序列文件使用where子句读取相同数据的查询?

时间:2018-03-07 11:56:45

标签: hadoop hive orc

我有一张表A,里面有一个列年龄。 (表大小为74GB,Hive 0.13)

现在我创建了一个表A,其中包含与A相同的数据,但是采用ORC文件格式,并且还包括在创建B时按年龄排序。

现在我运行查询时:

从X中选择count(id),其中age = 25;

从B表读取的数据与B的大小相同(我预计会进行一些修剪)以及在A~B中读取的时间。

理论上,由于ORC中的谓词下推,必须跳过大量数据,从而节省了大量时间。我怀疑在orc文件中创建的索引没有被读取。我几乎尝试了一切。但没有任何作用。请帮助解决这个问题。

0 个答案:

没有答案