指针与配置单元中的分区

时间:2014-09-08 10:25:08

标签: indexing hive partitioning

配置单元中的索引与分区的不同之处是什么?根据我的知识,它们以不同的方式提高查询性能?

我将使用索引或分区的情况是什么? 我可以一起使用它们吗?

请建议

2 个答案:

答案 0 :(得分:1)

分区允许用户存储存储在不同HDFS目录中的数据文件(根据所选参数,日期,例如,如果您希望按日期存储数据文件),从而最大限度地减少用户运行查询时要扫描的文件数。 / p>

虽然索引有助于更快地获取数据,但索引需要构建索引表来存储要编制索引的数据的位置。这导致两次存储数据。

答案 1 :(得分:0)

partition:

请注意,您有一个表保存从您的应用程序创建的事务。这张桌子每天都变大, 如果您根据日间隔对此表进行分区,则数据库会在每个时间间隔创建相似的表,但您只能看到一个表。它使您的日常基础查询更有效。

索引。 索引用于快速访问表记录。