有人可以向我解释一下Hadoop堆栈吗?

时间:2011-12-05 22:18:39

标签: hadoop

我希望了解并且可能正在使用Hadoop并且正在查看来自facebook here的开源项目。似乎有太多的方式来包围我的头脑。如果有人可以解释这些项目在哪里以及如何适合,那将是一个很大的帮助。

作为一些背景,我正在考虑在主要驱动程序是图像的项目上工作。所以想要在选择平台时解决问题(解决方案)。所以请随意推荐任何其他技术。

3 个答案:

答案 0 :(得分:1)

Cloudera有一个表,根据Google堆栈提供核心Hadoop项目的等价物:

MapReduce | MapReduce
GFS       | HDFS
BigTable  | HBase
Chubby    | ZooKeeper
Sawzall   | Hive, Pig

这些,尤其是前四个,是其他人构建的核心组件。 MapReduce生成的工作人员尽可能接近他们将要处理的数据。 HDFS复制非结构化数据。 HBase是一个列存储。 ZooKeeper可以进行服务发现,锁定和领导者选举。 Hive和Pig是高级查询语言,它们实现为对HBase数据的MapReduce计算。

项目生态系统还有很多,从Avro(序列化,思考协议缓冲区),Mahout(机器学习)等工具包到像Nutch这样的全功能产品(履带式和搜索引擎)等等。 Hadoop被剥离了。)

集成商正在分发Hadoop和类似Hadoop的堆栈(Hadoop是松散耦合的,有些是重要组件的替代品);核心项目由Apache基金会维护。

答案 1 :(得分:1)

上个月我写了一篇关于这个主题的文章:

The Hadoop Universe

我认为它在每个段落中合理地解释了所有与Hadoop相关的Apache项目。

答案 2 :(得分:0)

Hadoop生态系统正以非常快的速度增长。有开源(如Cloudera)/商业(如MapR)软件。从Hadoop ecosystem world map开始,根据需要转到下一级。这篇文章有点过时,但很有意义。