HAWQ表大小估计

时间:2016-11-25 10:02:49

标签: hadoop greenplum hawq

对于要加载到HAWQ的表的存储大小计算/估计,我有一个问题吗?

我有一个30MB的HIVE表,我试图使用PXF加载到HAWQ,例如: 从hcatalog.default.afs_trvn_mktscn_population创建表t2表空间数据作为select *;

HAWQ中的表占用了369MB的存储空间?无论我有多少个HAWQ段,HAWQ DFS.replica因子或HDFS复制因子是什么?我的情况即使有4个HAWQ段或1个HAWQ段,加载后表的大小为369MB。

我可以理解最小块大小是128MB,所以即使30MB最小也会使用128MB,但为什么> 300MB?

你能分享一下这方面的信息吗?

1 个答案:

答案 0 :(得分:1)

您的Hive表可能存储为带有Snappy压缩的ORC,而您的HAWQ表甚至不会被压缩。你应该在你的HAWQ表中使用它:

with (appendonly=true, orientation=parquet, compresstype=snappy)