我根据http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/中的演练设置了一个4节点的hadoop集群。我使用复制1(该集群仅用于测试)
我从本地复制了一个2GB的文件。在http接口中浏览文件时,我看到它被拆分为31个块,但所有这些都在一个节点上(主节点)
这是对的吗?我该如何调查原因?
答案 0 :(得分:5)
它们都在一个节点上,因为默认情况下Hadoop默认会首先写入本地节点。我猜你正在使用该节点的Hadoop客户端。由于你有一个复制,它只会在那个节点上。
由于你刚刚玩游戏,你可能想要强制传播数据。为此,您可以使用hadoop rebalancer
运行rebalancer。只需几分钟就可以控制它。