我想在HDFS(Hadoop文件系统)上保存图像文件(如jpeg,png等)。我试过两种方法:
put
命令将图像文件原样(即以相同格式)保存到HDFS中。完整的命令是:hadoop fs -put /home/a.jpeg /user/hadoop/
。它成功地放置了。 Sequence File
格式&然后使用put
命令保存在HDFS中。 我想知道应该使用哪种格式保存在HDFS中
使用Sequence File
格式的优点是什么?我知道的一个优点是它是可拆分的。还有别的吗?
答案 0 :(得分:1)
图像的尺寸非常小。小文件的问题是对处理性能的影响,这就是您应该使用序列文件,HAR,HBase或合并解决方案的原因。看到这两个线程的更多信息。
effective way to store image files
How many files is too many on a modern HDP cluster?
处理1Mb文件会产生开销。所以处理128 1Mb 文件将花费你128倍的“管理”开销,而不是 处理1个128Mb文件。在纯文本中,1Mb文件可能包含1000个 记录。 128 Mb文件可能包含128000条记录。