在数据级别合并Orc文件而不是条带级别

时间:2017-09-21 14:14:52

标签: hadoop hive orc

我想在数据级别进行合并,以减少条带数量。这是因为我每小时处理一次文件,每个分区创建了很多较小的ORC文件。我知道hive concatenate可以在条带级别合并文件。如果我连接,文件合并只发生在条带级别,就像添加了许多条带一样。我最终只有2-3行的多条纹。我希望有更少的条纹和更多的行。

1 个答案:

答案 0 :(得分:0)

merge.orcfile.stripe.level = false应该可以正常工作,但我还没有让它在我们的集群上工作。

我必须编写一个自定义程序来读取和组合文件。