HDFS微小文件

时间:2015-08-28 18:10:52

标签: hadoop hbase hdfs

我的源代码包含许多小文件(KB)和一些中等文件(1 mb到5 mb)和一些大文件(大于50 MB)

现在可以选择将这些放入HDFS(合并文件)或HBase(作为MOB)。就摄取性能和向最终用户显示文件而言,哪种方法是推荐的方法?

1 个答案:

答案 0 :(得分:0)

您可以将这些文件放入HDFS。但在放入HDFS之前,您可以通过运行带有identitymapper和identityreducer的MR作业来合并文件,方法是根据文件大小和块大小设置Reducer的数量,或者使用combinefileinputformat处理它,并将其放在HDFS中。