应用错误收集

是的namenode, dataNode, secondaryNameNode, jobTracker, taskTracker不同virtual machines（JVM你可以调用它们。您可以在一台物理计算机（pseudo/local mode）中启动它们，也可以在不同的物理计算机（distributed mode）上启动它们。这些都在Hadoop1中。

Hadoop2引入了YARN的容器，其中jobTracker和taskTracer被删除，效率更高resourceManager，applicationManager，{{1您可以找到更多信息hadoop-yarn-site

数据存储在nodeManager（HDFS）中，并存储在Hadoop Distributed File System中，默认为blocks。当数据加载到64MB时，hdfs会在具有已定义块大小的群集中平均分配数据。运行作业时，代码将分发到集群中的节点，以便每个处理都发生在数据驻留的位置，hadoop和shuffle情况除外。

我希望您必须大致了解sorting和hadoop的工作原理。以下是您开始使用的一些链接 Map Reduce programming
cluster setup
hadoop commands

在hadoop中输入了多少大量数据？

1 个答案: