对于Hadoop:哪个数据存储?

时间:2015-02-11 14:09:24

标签: hadoop hbase store

目前我正在为我的实习工作解决方案,每天处理多达100,000条记录,每天处理100,000条记录。我必须保存每条记录,15天后我们有大约1.500.000.000条记录。

情况: 因此,每天我收到大约100.000.000(可能还有几百万)的记录,这些记录我必须做一些计算/分析。为此,我正在考虑将Hadoop用于MapReduce和分布式计算。使用MapReduce模式,我可以创建每组100.000条记录,并在集群上分发它们以进行一些分布式分析/计算

我不知道这是否是一个很好的解决方案,但如果你还有别的想法,请告诉我。

除此之外,我还必须存储所有这些记录并每月使用它们来改进我每天计算的算法。什么商店最适合这种情况?我正在考虑HBase或CouchDB,因为我认为它们很符合我的要求。

1 个答案:

答案 0 :(得分:0)

实际上,Hadoop不是数据库.Hadoop是一个框架,可以跨商用服务器集群分布式处理大型数据集。 它旨在从单个服务器扩展到数千台机器,具有很高的容错能力。 Hadoop以MapReduce及其分布式文件系统(HDFS)而闻名。

Hbase是一个分布式,面向列的数据库。 Hbase将HDFS用于其底层存储,并支持使用MapReduce和点查询进行批量式计算。

Hive是一个分布式数据仓库。 Hive管理存储在HDFS中的数据,并提供基于SQL的查询语言(由运行时引擎转换为MapReduce作业),用于对数据进行排队。

**你能做的是: 使用Hbase进行存储

使用hive进行分析

您也可以integrate并使用hive查询(基于sql)存储在hbase中。