Question

我希望了解并且可能正在使用Hadoop并且正在查看来自facebook here的开源项目。似乎有太多的方式来包围我的头脑。如果有人可以解释这些项目在哪里以及如何适合，那将是一个很大的帮助。

作为一些背景，我正在考虑在主要驱动程序是图像的项目上工作。所以想要在选择平台时解决问题（解决方案）。所以请随意推荐任何其他技术。

Answer 1

Cloudera有一个表，根据Google堆栈提供核心Hadoop项目的等价物：

MapReduce | MapReduce
GFS       | HDFS
BigTable  | HBase
Chubby    | ZooKeeper
Sawzall   | Hive, Pig

这些，尤其是前四个，是其他人构建的核心组件。 MapReduce生成的工作人员尽可能接近他们将要处理的数据。 HDFS复制非结构化数据。 HBase是一个列存储。 ZooKeeper可以进行服务发现，锁定和领导者选举。 Hive和Pig是高级查询语言，它们实现为对HBase数据的MapReduce计算。

项目生态系统还有很多，从Avro（序列化，思考协议缓冲区），Mahout（机器学习）等工具包到像Nutch这样的全功能产品（履带式和搜索引擎）等等。 Hadoop被剥离了。）

集成商正在分发Hadoop和类似Hadoop的堆栈（Hadoop是松散耦合的，有些是重要组件的替代品）;核心项目由Apache基金会维护。

Answer 2

上个月我写了一篇关于这个主题的文章：

The Hadoop Universe

我认为它在每个段落中合理地解释了所有与Hadoop相关的Apache项目。

Answer 3

Hadoop生态系统正以非常快的速度增长。有开源（如Cloudera）/商业（如MapR）软件。从Hadoop ecosystem world map开始，根据需要转到下一级。这篇文章有点过时，但很有意义。

有人可以向我解释一下Hadoop堆栈吗？

3 个答案: