当我加载数据时,hive在幕后做了什么?

时间:2013-12-08 16:26:46

标签: database facebook hadoop hive hadoop-streaming

我知道hive会将数据作为partoions保存到hadoop文件系统中。但是,当我在hive中LOAD DATA时,确切的过程如何工作?

感谢您的回答!

1 个答案:

答案 0 :(得分:1)

  

我知道hive会将数据作为partoions保存到hadoop文件系统中。

Hive不存储数据。可以将Hive视为MapReduce计算模型之上的更高级别的抽象。

假设数据已存在于HDFS中并且表是在Hive中创建的,LOAD DATA命令只会将HDFS中的数据映射到Hive中创建的表。映射存储在Hive Metastore数据库中,默认情况下为derby。 Here是一篇关于Hive Metastore的类型以及如何配置它们的文章。

只需在Metastore数据库中插入/更新几行,这就是LOAD DATA命令运行速度快的原因。