在hadoop中输入了多少大量数据?

时间:2017-06-10 11:30:20

标签: hadoop bigdata

我是大数据和hadoop的新手。我想知道名称节点,数据节点,辅助名称节点,作业跟踪器,任务跟踪器不同的系统?如果我想处理1000 PB数据,如何划分数据以及谁在执行该任务以及我应该在何处输入1000 PB数据。

1 个答案:

答案 0 :(得分:0)

是的namenode, dataNode, secondaryNameNode, jobTracker, taskTracker不同virtual machinesJVM你可以调用它们。您可以在一台物理计算机(pseudo/local mode)中启动它们,也可以在不同的物理计算机(distributed mode)上启动它们。这些都在Hadoop1中。

Hadoop2引入了YARN的容器,其中jobTrackertaskTracer被删除,效率更高resourceManagerapplicationManager,{{1您可以找到更多信息hadoop-yarn-site

数据存储在nodeManagerHDFS)中,并存储在Hadoop Distributed File System中,默认为blocks。当数据加载到64MB时,hdfs会在具有已定义块大小的群集中平均分配数据。运行作业时,代码将分发到集群中的节点,以便每个处理都发生在数据驻留的位置,hadoopshuffle情况除外。

我希望您必须大致了解sortinghadoop的工作原理。以下是您开始使用的一些链接 Map Reduce programming
cluster setup
hadoop commands