使用镶木地板文件存储时创建Hive分区的优势

时间:2016-08-04 05:54:09

标签: hadoop hive parquet

使用镶木地板文件存储时创建Hive分区是否有任何好处。 Parquet是柱状存储文件格式,它以列块的形式存储数据,所有列按索引顺序存储。当我们查询基于谓词选择列时,选择列索引将根据谓词跳转到所需范围并打印值。分区如何有用?在面向行的配置单元表中,分区很有用,因为我们只会点击指定的所需数据范围,但我无法理解它在镶木地板存储方面有多大帮助。

1 个答案:

答案 0 :(得分:0)

在非分区表中,hive必须读取其中的所有文件 表的数据目录,然后在其上应用过滤器。对于大型表,它是缓慢而昂贵的。 在分区表中,它将基于分区列创建子目录。它水平分配执行负载,无需搜索整个表列以查找单个记录。 镶木地板文件格式有更好的压缩,但性能不是那么好。 镶木地板的分区减少了查询的执行时间。当我在镶木桌上执行过滤查询时,花了29.657秒,而镶木地板格式的分区花费了14.21秒。如果有大表,那么肯定会提高查​​询的性能。