我有以下情况:
我的问题与第二点有关 - 这些文件后来被复制到HDFS - 我担心这可能是一个存在大量小文件(例如1MB)的问题。
我的想法是将这些文件存储在数据库中,这样我就可以避免小文件的问题,也可以查询数据(为用户选择期间的数据)。这是一种更好的方法吗?
如果答案是肯定的,我可以使用哪些数据库?所以我需要数据库:
答案 0 :(得分:2)
我认为HBase非常适合您。
我还有“small file problem”,我用HBase解决了它。
直接在HDFS中存储小文件这是一个不好的做法,可能是个问题。
Apache HBase是Hadoop数据库。需要随机使用时, 对大数据的实时读/写访问权限。该项目的目标是 托管非常大的表 - 数十亿行数百万 列 - 商品硬件集群。
在我的情况下,我有很多小文件(200 Kb / 1 Mb),现在我将这些文件存储在一个表中,其中一些列为Header / Information,另一列为文件的二进制内容和文件名作为键(文件名是UUID)