应用错误收集

为什么不将hadoop分发给所有节点？

时间：2013-12-09 15:28:28

标签： hadoop hdfs

我根据http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/中的演练设置了一个4节点的hadoop集群。我使用复制1（该集群仅用于测试）

我从本地复制了一个2GB的文件。在http接口中浏览文件时，我看到它被拆分为31个块，但所有这些都在一个节点上（主节点）

这是对的吗？我该如何调查原因？

1 个答案:

答案 0 :(得分：5)

它们都在一个节点上，因为默认情况下Hadoop默认会首先写入本地节点。我猜你正在使用该节点的Hadoop客户端。由于你有一个复制，它只会在那个节点上。

由于你刚刚玩游戏，你可能想要强制传播数据。为此，您可以使用hadoop rebalancer运行rebalancer。只需几分钟就可以控制它。