以下字段是什么:'totalSize'和'rawDataSize'在hive中的DESCRIBE EXTENDED查询输出中表示什么?

时间:2016-01-06 06:11:23

标签: hadoop hive hiveql

如果在任何配置单元表上运行DESCRIBE EXTENDED命令,结果会在输出结尾附近显示totalSize和rawDataSize值。

这些字段意味着什么?

例如:

hive > DESCRIBE EXTENDED <TableName>

Output Results:

Table(tableName:TablenameXXXXX, dbName:XXxXXX,
..........       .......................
numRows=116429472, totalSize=3835205544, rawDataSize=35040221600})

3 个答案:

答案 0 :(得分:10)

rawDataSize是原始数据集的大小,totalSize是它所需的存储量。它适用于ORC文件格式,因为它压缩数据totalSize将小于rawDataSize。

答案 1 :(得分:1)

数据大小由两个统计数据描述:

  • totalSize - 磁盘上数据的近似大小
  • rawDataSize - 内存中数据的近似大小

MapReduce上的Hive使用totalSize。当两者都可用时,Hive on Spark使用rawDataSize。由于压缩和序列化,对于同一数据集,totalSize和rawDataSize之间可能存在很大差异。

答案 2 :(得分:0)

字段的含义是:

  • totalSize-存储表数据的磁盘上物理文件的总大小(以字节为单位)。
  • rawDataSize-是每个数据类型大小的总和 列乘以表格中的行数。这也是 用作查询优化程序的估算值(例如,确定 表足够小,可以执行mapjoin而不是简单的join。)