BigQuery大小的电容格式比Hadoop(ORC)大得多

时间:2017-05-29 09:22:21

标签: hadoop google-bigquery

在我第一次使用BigQuery进行测试时,我发现在BigQuery中导入的表的大小比在Hadoop中的原始表示要大得多。

以下是我得到的数字:

  • ORC原创Hadoop表:2GB
  • Avro压缩表示将数据加载到BigQuery:6.4 GB
  • (测试:Avro未压缩:45.8 GB)
  • BigQuery中的大小(电容格式):47.1 GB

这个表有1100万行,有366列(大多数是"字符串")。

这是BigQuery的正常行为吗?我认为Capacitor以非常有效的方式优化了数据。

有没有办法在BigQuery中查看我的数据的内部结构,以了解出现了什么问题以及导致产生这么大量空间的原因?

0 个答案:

没有答案