用于在HDFS

时间:2016-07-14 11:22:11

标签: image hadoop hdfs sequencefile

我想在HDFS(Hadoop文件系统)上保存图像文件(如jpeg,png等)。我试过两种方法:

  1. 使用put命令将图像文件原样(即以相同格式)保存到HDFS中。完整的命令是:hadoop fs -put /home/a.jpeg /user/hadoop/。它成功地放置了。
  2. 将这些图片文件转换为Hadoop的Sequence File格式&然后使用put命令保存在HDFS中。
  3. 我想知道应该使用哪种格式保存在HDFS中 使用Sequence File格式的优点是什么?我知道的一个优点是它是可拆分的。还有别的吗?

1 个答案:

答案 0 :(得分:1)

与HDFS存储的块大小相比,

图像的尺寸非常小。小文件的问题是对处理性能的影响,这就是您应该使用序列文件,HAR,HBase或合并解决方案的原因。看到这两个线程的更多信息。

effective way to store image files

How many files is too many on a modern HDP cluster?

  

处理1Mb文件会产生开销。所以处理128 1Mb   文件将花费你128倍的“管理”开销,而不是   处理1个128Mb文件。在纯文本中,1Mb文件可能包含1000个   记录。 128 Mb文件可能包含128000条记录。