我在Hive中有一张桌子。
当我运行命令show tblproperties myTableName
时,它给出了以下结果:
numFiles 12
numRows 1688092
rawDataSize 934923162
totalSize 936611254
这意味着rawDataSize is 934.92 MB and totalSize is 936.61 MB
当我运行命令计算同一个表的HDFS表位置的数据大小时。
[user@server1 ~]$ hdfs dfs -du -h -s /apps/hive/warehouse/test.db/myTableName
893.2 M /apps/hive/warehouse/test.db/myTableName
结果数据大小为 893.2 MB
我看到同一个表格中的数据量存在很大差异。我试图理解为什么这里的数据大小存在差异,并且需要详细解释。
表格类型 - MANAGED_TABLE
#存储信息
SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat: org.apache.hadoop.mapred.TextInputFormat
OutputFormat: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
Compressed: No
Num Buckets: -1
答案 0 :(得分:3)
936611254/1024/1024 = 893.2 M