应用错误收集

时间：2015-04-26 19:18:30

标签： hadoop mapreduce hdfs bigdata

当我试图理解hadoop架构时，我想弄清楚一些问题。当有大数据输入时，HDFS会将它分成许多卡盘（每个卡盘64MB或128MB），然后复制很多时间将它们存储在内存块中，对吗？

但是，我仍然不知道MapReduce在哪里工作。它是否用于分割和合并数据来存储它？或者用它来返回一些有用的输出？

答案 0 :(得分：1)

在HDFS中存储数据与使用MapReduce范例分析数据完全不同。

当上传到HDFS时，大数据文件被分割成存储在数据节点中的块，并且每个块的复制次数与配置的复制因子一样多（默认情况下为3）。数据拆分就像将文件除以配置的块大小一样简单。

如上所述，MapReduce是分析大数据文件以获取增值信息时的编程范例。简而言之，每个文件块都被分配给一个map任务，以便所有的映射器在chuncks上执行相同的操作;一旦完成，输出部分结果将被发送到Reducer，以便以某种方式聚合数据。