我想将一天的avro数据(~2 TB)转换成实木复合地板。
我运行了一个配置单元查询,数据已成功转换为镶木地板。
但数据大小变为6 TB。
如果数据变得那么大,会发生什么?
答案 0 :(得分:-1)
通常,Parquet可以比Avro更高效,因为它是相同类型的柱状格式列在磁盘上相邻。这允许压缩算法在某些情况下更有效。通常我们使用Snappy,它足够容易在CPU上使用,并且具有一些属性,使其适用于相对于其他压缩方法(如zip或gzip)的Hadoop。主要是活泼的可分割;每个块保留确定模式所需的信息。 MParquet是一种很棒的格式,从Avro移动后我们对查询性能非常满意(我们也可以使用速度超快的Impapla)。