应用错误收集

BigQuery大小的电容格式比Hadoop（ORC）大得多

时间：2017-05-29 09:22:21

标签： hadoop google-bigquery

在我第一次使用BigQuery进行测试时，我发现在BigQuery中导入的表的大小比在Hadoop中的原始表示要大得多。

以下是我得到的数字：

ORC原创Hadoop表：2GB
Avro压缩表示将数据加载到BigQuery：6.4 GB
（测试：Avro未压缩：45.8 GB）
BigQuery中的大小（电容格式）：47.1 GB

这个表有1100万行，有366列（大多数是＆＃34;字符串＆＃34;）。

这是BigQuery的正常行为吗？我认为Capacitor以非常有效的方式优化了数据。

有没有办法在BigQuery中查看我的数据的内部结构，以了解出现了什么问题以及导致产生这么大量空间的原因？

0 个答案:

没有答案