对于要加载到HAWQ的表的存储大小计算/估计,我有一个问题吗?
我有一个30MB的HIVE表,我试图使用PXF加载到HAWQ,例如: 从hcatalog.default.afs_trvn_mktscn_population创建表t2表空间数据作为select *;
HAWQ中的表占用了369MB的存储空间?无论我有多少个HAWQ段,HAWQ DFS.replica因子或HDFS复制因子是什么?我的情况即使有4个HAWQ段或1个HAWQ段,加载后表的大小为369MB。
我可以理解最小块大小是128MB,所以即使30MB最小也会使用128MB,但为什么> 300MB?
你能分享一下这方面的信息吗?
答案 0 :(得分:1)
您的Hive表可能存储为带有Snappy压缩的ORC,而您的HAWQ表甚至不会被压缩。你应该在你的HAWQ表中使用它:
with (appendonly=true, orientation=parquet, compresstype=snappy)