我知道这一定是个愚蠢的问题,但是经过几个小时的谷歌搜索,我无法得到答案。
以csv等纯文本格式很容易理解分隔符的工作原理。在ORC中,既然是二进制存储在HDFS中,那么字段的分隔符是什么?我被告知在ORC中没有分隔符,但我对此声明非常怀疑。
即使将其存储为行组,对于每个行组的一列,也可以有多个数据字段,每个字段与下一个字段的区别如何?每行如何与下一行分开?是否有分隔符来实现这一目标?
感谢您的任何评论!
答案 0 :(得分:1)
没有分隔符。它使用Stride / Stripes,
文件正文分为条纹。每个条纹都是自我的 包含并且可以仅使用其自己的字节结合来读取 文件的页脚和后记。每个条带只包含整行 行永远不会跨越条纹边界。条纹有三个 sections:条带内的行的一组索引,即数据 本身和条纹页脚。索引和数据部分 按列分割,以便只显示所需列的数据 需要阅读。
参考:ORC