我知道hive会将数据作为partoions保存到hadoop文件系统中。但是,当我在hive中LOAD DATA
时,确切的过程如何工作?
感谢您的回答!
答案 0 :(得分:1)
我知道hive会将数据作为partoions保存到hadoop文件系统中。
Hive不存储数据。可以将Hive视为MapReduce计算模型之上的更高级别的抽象。
假设数据已存在于HDFS中并且表是在Hive中创建的,LOAD DATA
命令只会将HDFS中的数据映射到Hive中创建的表。映射存储在Hive Metastore数据库中,默认情况下为derby。 Here是一篇关于Hive Metastore的类型以及如何配置它们的文章。
只需在Metastore数据库中插入/更新几行,这就是LOAD DATA
命令运行速度快的原因。