何时在ORC上使用实木复合地板或在Parquet上使用ORC?

时间:2018-12-06 09:29:40

标签: apache-spark hive bigdata parquet orc

我浏览了许多堆栈链接和其他博客,并且所有人的反应都很好。所有答案大多都受到偏爱的启发,但是找不到任何可以选择一个的特定数据点。无论是数据结构的复杂性,压缩还是性能还是兼容性,两种文件格式在不同的博客中都被认为是好的。

请在一个特定的用例或领域取代另一个的情况下提供帮助。

1 个答案:

答案 0 :(得分:2)

ORC和Parquet是非常相似的文件格式。与差异相比,它们具有更多的相似性。 1.两者都是列式文件系统 2.两者都有块级压缩。

但是,我们有以下指针来选择它们 1. Parquet由Cloudera开发和支持。它的灵感来自于列文件格式和Google Dremel。因此,Cloudera支持的产品和发行版更喜欢镶木地板。如果您打算将impala与数据一起使用,则首选镶木地板

  1. ORC格式已从RCFile格式演变而来。当您将复杂的数据类型作为数据的一部分时,这非常好。

  2. ORC可以为您提供更好的压缩效果。

  3. 在提供谓词下推功能时,
  4. ORC比Parquet更成熟。最近,这也在镶木地板中提供。

您可以在youtube上观看此视频。它很好地涵盖了这个主题。 链接:https://www.youtube.com/watch?v=NZLrJmjoXw8