当我试图理解hadoop
架构时,我想弄清楚一些问题。
当有大数据输入时,HDFS会将它分成许多卡盘(每个卡盘64MB或128MB),然后复制很多时间将它们存储在内存块中,对吗?
但是,我仍然不知道MapReduce
在哪里工作。它是否用于分割和合并数据来存储它?或者用它来返回一些有用的输出?
答案 0 :(得分:1)
在HDFS中存储数据与使用MapReduce范例分析数据完全不同。
当上传到HDFS时,大数据文件被分割成存储在数据节点中的块,并且每个块的复制次数与配置的复制因子一样多(默认情况下为3)。数据拆分就像将文件除以配置的块大小一样简单。
如上所述,MapReduce是分析大数据文件以获取增值信息时的编程范例。简而言之,每个文件块都被分配给一个map任务,以便所有的映射器在chuncks上执行相同的操作;一旦完成,输出部分结果将被发送到Reducer,以便以某种方式聚合数据。