最近我们发现由于我们的ETL存在问题,我们的parquets中有重复的行。
我们启动了一个删除重复行的项目(读取parquets,重复数据删除和回写)。令人惊讶的是,我们注意到实际上这些小屋的大小已经增长了!
如何解释?是否有可能由于数据量较小而导致某些压缩根本无法启动?
或者,我们是否应该在重复数据删除逻辑中查找错误(但不太可能)?
答案 0 :(得分:0)
您实际上无法从实木复合地板文件中删除记录。如果删除记录,该记录仍将存在。但是,有关“删除”了哪个记录的其他信息也添加到了镶木地板文件中。
答案 1 :(得分:0)
这可能与实木复合地板文件结构中的更改有关。每个行组都有其自己的元数据,如果您更改行组的数量,文件的大小可能会增加,这可能是您问题的答案。