HDFS数据大小和Hive数据大小的差异

时间:2017-04-19 08:48:46

标签: hadoop hive hdfs hadoop2 apache-hive

我在Hive中有一张桌子。

当我运行命令show tblproperties myTableName时,它给出了以下结果:

numFiles        12
numRows         1688092
rawDataSize     934923162
totalSize       936611254

这意味着rawDataSize is 934.92 MB and totalSize is 936.61 MB

当我运行命令计算同一个表的HDFS表位置的数据大小时。

[user@server1 ~]$ hdfs dfs -du -h -s /apps/hive/warehouse/test.db/myTableName
893.2 M  /apps/hive/warehouse/test.db/myTableName

结果数据大小为 893.2 MB

我看到同一个表格中的数据量存在很大差异。我试图理解为什么这里的数据大小存在差异,并且需要详细解释。

表格类型 - MANAGED_TABLE

#存储信息

SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat:            org.apache.hadoop.mapred.TextInputFormat
OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
Compressed:             No
Num Buckets:            -1

1 个答案:

答案 0 :(得分:3)

936611254/1024/1024 = 893.2 M