我正在尝试根据数据大小估算资源。 是否有基于数据大小决定所需数据节点数的拇指规则?
答案 0 :(得分:0)
不,不是真的。通常在典型的Hadoop集群中,每个节点有一个DataNode
对不起,简短的回答,但就是这样! :)
请记住,Hadoop更喜欢处理少量巨大的文件。
答案 1 :(得分:0)
请记住,数据(默认情况下)会复制3次(原始副本+ 2个以上)。也就是说,如果您有15TB的数据,则需要至少45TB的磁盘空间来容纳副本。
副本不能位于同一节点上,因此假设默认配置,您需要至少3个具有15TB存储空间的Datanode。