我是大数据和hadoop的新手。我想知道名称节点,数据节点,辅助名称节点,作业跟踪器,任务跟踪器不同的系统?如果我想处理1000 PB数据,如何划分数据以及谁在执行该任务以及我应该在何处输入1000 PB数据。
答案 0 :(得分:0)
是的namenode, dataNode, secondaryNameNode, jobTracker, taskTracker
不同virtual machines
(JVM
你可以调用它们。您可以在一台物理计算机(pseudo/local mode
)中启动它们,也可以在不同的物理计算机(distributed mode
)上启动它们。这些都在Hadoop1中。
Hadoop2
引入了YARN
的容器,其中jobTracker
和taskTracer
被删除,效率更高resourceManager
,applicationManager
,{{1您可以找到更多信息hadoop-yarn-site
数据存储在nodeManager
(HDFS
)中,并存储在Hadoop Distributed File System
中,默认为blocks
。当数据加载到64MB
时,hdfs
会在具有已定义块大小的群集中平均分配数据。运行作业时,代码将分发到集群中的节点,以便每个处理都发生在数据驻留的位置,hadoop
和shuffle
情况除外。
我希望您必须大致了解sorting
和hadoop
的工作原理。以下是您开始使用的一些链接
Map Reduce programming
cluster setup
hadoop commands