典型的Hive和Hadoop磁盘空间使用情况

时间:2014-09-28 18:45:00

标签: hadoop hive

我们有2台服务器的Haddop / Hive集群,每台服务器上的Hive数据库使用~160GB的磁盘空间,但Hadoop数据目录大约为850GB。

是否正常,Hive数据库大小与Hadoop数据目录大小之间的典型比例是什么?

2 个答案:

答案 0 :(得分:2)

这完全取决于您存储的数据类型。您存储在Hive数据库中的数据实际上只是hadoop数据目录的一部分。如果您只在hadoop中存储Hive表的数据,那么比率将是1:1。

Hive数据库大小与Hadoop数据目录大小之间没有这种关系。 HDFS是一个超级集合,其中存储了包括Hive数据库在内的所有数据。

答案 1 :(得分:2)

/ dfs / dn指的是datanode大小,即HDFS的大小。这包括hive表占用的空间,以及hdfs中的其他内容。

如果您使用hadoop 存储配置单元数据,请考虑创建external tables。这些只会存储元数据并重复使用已存储在hdfs文件夹中的数据,而内部表将复制数据和元数据。