我只是使用spark来读取镶木地板文件并执行repartition(1)
随机播放;然后保存回到镶木地板文件。有线的是新文件比原始文件大得多。甚至元数据文件也比原始文件大几百kb。有人注意到这个问题吗?有没有办法在一种压缩策略下使镶木地板文件尽可能小(例如:.gz格式)?
编辑: 我读了其他帖子并得到了这个问题的基本概念。我仍然希望讨论我们应该选择哪种列进行排序工作。我希望找到一般优化策略来完成这项工作。
答案 0 :(得分:0)
我想说我同意帖子中链接帖子的想法。在我的情况下,排序将是一个不错的选择。具体而言,我使用不同的色谱柱进行测试,也使用单列和复合色谱柱。通常,使用包含文件大部分信息的列进行排序将是一种有效的策略。欢迎任何评论。