应用错误收集

时间：2013-04-18 20:11:11

标签： mongodb hadoop

hadoop仅用作数据处理吗？ Hadoop的主要好处是能够在不同的机器上读取相同的文件并在那里处理它然后减少。

使用MongoDB和Hadoop适配器，我们可以在每个节点上继续数据，但数据供应仍来自一台MongoDb机器（磁盘）。因此，在10个Hadoop节点的帮助下搜索10Gb可能与没有Hadoop的情况相同（仅在mongodb机器上）

对我而言，它看起来像是一个瓶颈。我是对的吗？

答案 0 :(得分：0)

不，Hadoop实际上是两件事，HDFS（存储层）和Mapreduce（处理层）。

仅文件的一部分而不是整个文件。当您将文件存储在HDFS中时，它首先被切割成64M的块（默认，但可配置），然后每个块以复制的方式存储在不同的机器上。每个块都在它所在的机器上读取，并与其他机器上的其他块并行进行。

为什么要将MongoDB数据首先移动到Hadoop集群中然后进行处理？您可以使用分片和MapReduce以分布式方式处理MongoDB数据。您可能会发现此link很有用。