我正在学习Hadoop地图减少基本原则,我无法理解很多东西。如何将作业从客户端发送到主节点和节点。
假设我们有客户端,主服务器和两个从服务器。据我所知,Mapper类在java类的客户端上。客户端连接到master以及下一步是什么?如何将Mapper类中的代码传递给master,然后传递给节点?或者我理解一切都错了?
答案 0 :(得分:3)
如图所示,这是发生的事情:
hadoop jar
命令在客户端上运行作业,在该命令中传递jar文件名,类名和其他参数,例如输入和输出答案 1 :(得分:0)
假设我们有一个1000个节点的集群,我们有50 gb的文件要处理,假设我们把块大小当作64mb,输入分割的数量将是50 * 1024/64,所以占用的块数将是800并假设800块将具有存储在300个数据节点中的数据,因此如果您将jar发送到集群中的所有节点,它将是无用的,因为我们只需要300个数据节点中的jar。