如果在任何配置单元表上运行DESCRIBE EXTENDED命令,结果会在输出结尾附近显示totalSize和rawDataSize值。
这些字段意味着什么?
例如:
hive > DESCRIBE EXTENDED <TableName>
Output Results:
Table(tableName:TablenameXXXXX, dbName:XXxXXX,
.......... .......................
numRows=116429472, totalSize=3835205544, rawDataSize=35040221600})
答案 0 :(得分:10)
rawDataSize是原始数据集的大小,totalSize是它所需的存储量。它适用于ORC文件格式,因为它压缩数据totalSize将小于rawDataSize。
答案 1 :(得分:1)
数据大小由两个统计数据描述:
MapReduce上的Hive使用totalSize。当两者都可用时,Hive on Spark使用rawDataSize。由于压缩和序列化,对于同一数据集,totalSize和rawDataSize之间可能存在很大差异。
答案 2 :(得分:0)
字段的含义是: