应用错误收集

基于数据大小的Hadoop数据节点

时间：2014-03-25 10:31:50

标签： hadoop

我正在尝试根据数据大小估算资源。是否有基于数据大小决定所需数据节点数的拇指规则？

2 个答案:

答案 0 :(得分：0)

不，不是真的。通常在典型的Hadoop集群中，每个节点有一个DataNode 对不起，简短的回答，但就是这样！ :)
请记住，Hadoop更喜欢处理少量巨大的文件。

答案 1 :(得分：0)

请记住，数据（默认情况下）会复制3次（原始副本+ 2个以上）。也就是说，如果您有15TB的数据，则需要至少45TB的磁盘空间来容纳副本。

副本不能位于同一节点上，因此假设默认配置，您需要至少3个具有15TB存储空间的Datanode。