我希望了解并且可能正在使用Hadoop并且正在查看来自facebook here的开源项目。似乎有太多的方式来包围我的头脑。如果有人可以解释这些项目在哪里以及如何适合,那将是一个很大的帮助。
作为一些背景,我正在考虑在主要驱动程序是图像的项目上工作。所以想要在选择平台时解决问题(解决方案)。所以请随意推荐任何其他技术。
答案 0 :(得分:1)
Cloudera有一个表,根据Google堆栈提供核心Hadoop项目的等价物:
MapReduce | MapReduce
GFS | HDFS
BigTable | HBase
Chubby | ZooKeeper
Sawzall | Hive, Pig
这些,尤其是前四个,是其他人构建的核心组件。 MapReduce生成的工作人员尽可能接近他们将要处理的数据。 HDFS复制非结构化数据。 HBase是一个列存储。 ZooKeeper可以进行服务发现,锁定和领导者选举。 Hive和Pig是高级查询语言,它们实现为对HBase数据的MapReduce计算。
项目生态系统还有很多,从Avro(序列化,思考协议缓冲区),Mahout(机器学习)等工具包到像Nutch这样的全功能产品(履带式和搜索引擎)等等。 Hadoop被剥离了。)
集成商正在分发Hadoop和类似Hadoop的堆栈(Hadoop是松散耦合的,有些是重要组件的替代品);核心项目由Apache基金会维护。
答案 1 :(得分:1)
答案 2 :(得分:0)
Hadoop生态系统正以非常快的速度增长。有开源(如Cloudera)/商业(如MapR)软件。从Hadoop ecosystem world map开始,根据需要转到下一级。这篇文章有点过时,但很有意义。