序列文件优于hdfs文本文件的优点

时间:2012-08-02 13:40:39

标签: hadoop hdfs sequencefile

Hadoop序列文件优于HDFS平面文件(文本)的优势是什么? Sequence文件以什么方式有效?

可以将小文件组合并写入序列文件,但也可以对HDFS文本文件进行相同的操作。需要知道这两种方式的区别。我一直在谷歌上搜索这个问题,如果我对此有所了解会有帮助吗?

3 个答案:

答案 0 :(得分:25)

  1. 序列文件适用于您要存储密钥及其相应值的情况。对于文本文件,您可以这样做,但您必须解析每一行。
  2. 可以压缩并且仍可拆分,这意味着更好的工作量。除非使用可拆分压缩格式,否则无法拆分压缩文本文件。
  3. 可以接近二进制文件=>更高的存储效率。在文本文件中,double将是多个chars =>大量存储开销。

答案 1 :(得分:2)

Hadoop的优势Sequence files (根据Siva网站上的hadooptutorial.info文章)

  1. 比文字文件更多紧凑
  2. 支持不同级别的压缩 - 阻止或记录等。
  3. 文件可以拆分并且可以并行处理
  4. 他们可以在Hadoop中解决大量小文件问题,其中Hadoop的主要优势是使用Map reduce作业处理大文件。它可以用作大量小文件的容器
  5. Mapper的临时输出可以存储在顺序文件中
  6. <强>缺点:

    1. 仅附加顺序文件

答案 2 :(得分:0)

序列文件是在MapReduce处理的mapper和reducer阶段生成的中间文件。序列文件是可压缩的,处理速度快,用于在mapper和reducer reds期间写入输出。 Hadoop和Spark中有API来读/写序列文件