Hadoop序列文件中的压缩

时间:2011-11-29 09:40:24

标签: filesystems compression hadoop sequence hdfs

我有一些关于hadoop顺序文件的基本问题。

1)默认压缩编解码器在多大程度上压缩文件?

2)当我读取此文件并将其内容转储到我观察到的文本文件的文本文件大小时,我有100 MB的hadoop序列文件,大约是1GB(可以吗?)

3)在读取序列文件时,“syncSeen()”的重要性是什么 “寻求(多头)”?如果我在阅读时不使用这些电话有什么问题吗? 关于如何使用这些方法的任何例子?

1 个答案:

答案 0 :(得分:0)

SequenceFile.Reader#seek会将读者定位在SequenceFile中的给定点。

根据Hadoop:The Definitive Guide

  

同步点是流中的一个点,如果读取器“丢失”,可用于与记录边界重新同步 - 例如,在寻找流中的任意位置之后。 SyncFile.Writer记录同步点,在写入序列文件时,每隔几条记录插入一个特殊条目来标记同步点。这些条目足够小,只能产生适度的存储开销 - 小于1%。同步点始终与记录边界对齐。

SequenceFile.Reader#syncseen将告诉读取SequenceFile时是否已传递同步标记。