我想在HDFS上处理大量小图像。 Hadoop提供归档API和顺序文件格式来存储大量小文件,以便在名称节点上节省内存。但是,我需要在map-reduce之后检索符合我要求的图像。我不确定,但我认为从存档和顺序文件格式中检索图像可能很困难。但是如果我们不使用这些方法,我们可以选择返回文件的路径,让服务器通过这些路径从HDFS下载这些图像,虽然它可能给namenode带来更大的压力。我无法决定使用哪种方案。谁能提出任何建议?我很好奇谷歌如何将他们的图像存储在数据中心并返回响应用户查询的图像。
答案 0 :(得分:1)
你应该看看HBase,它可以让你一方面存储小文件和随机读/写,另一方面完全参与map / reduce作业