Hive文件格式优缺点

时间:2014-04-21 16:14:48

标签: hadoop hive hiveql

我开始使用Hive。 我想知道格式中每种表格格式应该使用哪些查询: rcfile,orcfile,parquet,delimited text

3 个答案:

答案 0 :(得分:1)

当您的表具有非常多的列并且您倾向于经常使用特定列时,RC文件格式将是一个不错的选择。您只需检索所需的列,而不是读取整行数据,从而节省时间。将数据分成行组,然后将其分成列组。

分隔文本文件是一般文件格式。

答案 1 :(得分:1)

对于ORC文件格式,请查看hive文档,其中包含详细说明:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC

Parquet文件格式以列形式存储数据。 例如: Col1 Col2 1 B 2 C 3

正常数据存储为A1B2C3。使用Parquet,数据存储为ABC123。 对于镶木地板文件格式,请阅读https://blog.twitter.com/2013/dremel-made-simple-with-parquet

答案 2 :(得分:1)

我看到有几个答案,但由于您的问题没有要求任何特定的文件格式,答案解决了一种或另一种文件格式。

您可以在Hive中使用一堆文件格式。值得一提的是AVRO,Parquet。 RCFile& ORC。如果要比较这些文件格式的性能和空间利用率,可以参考一些在线可用的好文档。遵循一些有用的链接,可以帮助您。

This Blog Post

This link from MapR [They don't discuss Parquet though]

This link from Inquidia

上面给出的链接可以帮到你。我希望这能回答你的问题。

谢谢!