应用错误收集

在Spark中进行重复数据删除后，Parquet文件的大小增加了一倍

时间：2019-05-31 15:25:23

标签： apache-spark hadoop apache-spark-sql parquet

我们有一个重复数据删除过程，该过程可读取镶木地板文件并删除重复的记录，并在Spark sql中将不同的数据帧写回镶木地板输出文件。但是输出文件的大小是原始大小的两倍。我们正在使用gzip压缩编写实木复合地板，这也是原始文件压缩编解码器。

0 个答案:

没有答案