hdfs数据偏斜,为什么文件不均匀分布?

时间:2016-11-30 00:41:24

标签: hadoop

我用32个奴隶运行HDFS。

每个从站剩余大约300GB的本地磁盘空间(其余的不是HDFS。)

当我输入32 * 100 GB文件时,文件只传递给某些从属文件。由于磁盘空间不足,它会导致任务崩溃。

我该如何避免这个问题?

1 个答案:

答案 0 :(得分:1)

我不是管理员,但在查看你的问题时,这是我头脑中的第一件事。

Hadoop是一种“拓扑感知”系统。请阅读它 here.

如果拓扑不正确,那么HDFS写入默认复制(3x)将按顺序写入(随机节点 - >节点在不同的机架上 - >与第二个副本相同的机架,但是不同的节点)。

还要检查复制因子。希望这有帮助!