我已阅读大量博客条目以及有关hadoop"中的" Small Files问题的文章,但其中很多似乎只是一个复制粘贴之前的。此外,他们似乎都有点过时了,最后的(2015年)描述了this cloudera blog在2009年初所做的事情。
这是否意味着6年内没有找到归档解决方案?
以下是我研究的原因:我需要移动和编目文件,因为它们来自不同的数字,有时甚至是单一的,然后将它们存储在HDFS中 。
这些文件将以后访问在Web服务层中返回(必须快速),以供人员或软件打开和查看。
这些文件可能是视频,图片,文档,以及稍后需要使用我使用Java类UUID
生成的ID来访问的文件。
使用hdfs的选择是我PM的完整个人,因为我已经建议HBase补偿HDFS索引的不足(尽管我不确定它是否是最佳解决方案)但是,如果不得不处理更大的文件,他已经让我看看HBase的外观(到目前为止1000中最大的是2MB,但我们期待1Gb的视频)。
据我所知,当你使用MapReduce作业,内存消耗时会发生小文件问题,但我想知道:
如果我使用Spark来提取它们,HDFS中有多少文件真的很重要吗?或者,如果我使用webhdfs / v1 /?还是Java?
谈到存储小文件的组,到目前为止,我发现了三个主要解决方案,所有这些在生产环境中都非常不方便:
我是否遗漏了一些关于这个常见问题的新技术? Avro或Parquet用于文件的东西?