在Spark中进行重复数据删除后,Parquet文件的大小增加了一倍

时间:2019-05-31 15:25:23

标签: apache-spark hadoop apache-spark-sql parquet

我们有一个重复数据删除过程,该过程可读取镶木地板文件并删除重复的记录,并在Spark sql中将不同的数据帧写回镶木地板输出文件。 但是输出文件的大小是原始大小的两倍。我们正在使用gzip压缩编写实木复合地板,这也是原始文件压缩编解码器。

0 个答案:

没有答案