从镶木地板中删除数据导致它*大小*增长*为什么?

时间:2018-05-10 06:52:38

标签: apache-spark pyspark parquet

最近我们发现由于我们的ETL存在问题,我们的parquets中有重复的行。

我们启动了一个删除重复行的项目(读取parquets,重复数据删除和回写)。令人惊讶的是,我们注意到实际上这些小屋的大小已经增长了!

如何解释?是否有可能由于数据量较小而导致某些压缩根本无法启动?

或者,我们是否应该在重复数据删除逻辑中查找错误(但不太可能)?

2 个答案:

答案 0 :(得分:0)

您实际上无法从实木复合地板文件中删除记录。如果删除记录,该记录仍将存在。但是,有关“删除”了哪个记录的其他信息也添加到了镶木地板文件中。

答案 1 :(得分:0)

这可能与实木复合地板文件结构中的更改有关。每个行组都有其自己的元数据,如果您更改行组的数量,文件的大小可能会增加,这可能是您问题的答案。