ORC如何划分字段?

时间:2016-10-13 19:38:44

标签: hadoop hive hdfs storage orc

我知道这一定是个愚蠢的问题,但是经过几个小时的谷歌搜索,我无法得到答案。

以csv等纯文本格式很容易理解分隔符的工作原理。在ORC中,既然是二进制存储在HDFS中,那么字段的分隔符是什么?我被告知在ORC中没有分隔符,但我对此声明非常怀疑。

即使将其存储为行组,对于每个行组的一列,也可以有多个数据字段,每个字段与下一个字段的区别如何?每行如何与下一行分开?是否有分隔符来实现这一目标?

感谢您的任何评论!

1 个答案:

答案 0 :(得分:1)

没有分隔符。它使用Stride / Stripes,

  

文件正文分为条纹。每个条纹都是自我的   包含并且可以仅使用其自己的字节结合来读取   文件的页脚和后记。每个条带只包含整行   行永远不会跨越条纹边界。条纹有三个   sections:条带内的行的一组索引,即数据   本身和条纹页脚。索引和数据部分   按列分割,以便只显示所需列的数据   需要阅读。

参考:ORC