Hive从将avro转换为镶木地板后,数据量大幅增加

时间:2016-04-16 14:28:58

标签: hadoop hive avro parquet data-formats

我想将一天的avro数据(~2 TB)转换成实木复合地板。

我运行了一个配置单元查询,数据已成功转换为镶木地板。

但数据大小变为6 TB。

如果数据变得那么大,会发生什么?

1 个答案:

答案 0 :(得分:-1)

通常,Parquet可以比Avro更高效,因为它是相同类型的柱状格式列在磁盘上相邻。这允许压缩算法在某些情况下更有效。通常我们使用Snappy,它足够容易在CPU上使用,并且具有一些属性,使其适用于相对于其他压缩方法(如zip或gzip)的Hadoop。主要是活泼的可分割;每个块保留确定模式所需的信息。 MParquet是一种很棒的格式,从Avro移动后我们对查询性能非常满意(我们也可以使用速度超快的Impapla)。