我是Hadoop的新手。如果我问废话并帮我解决这个问题,请纠正我:)。
我安装并配置了一个双节点hadoop集群(yarn)。
的Datanode: 仅主节点(不保留从节点中的复制数据)
地图/减少: 主节点&从节点。
在10TB数据中,我将2TB上传到主节点(数据节点)。我只使用从节点进行Map / Reduce(使用100%的从节点CPU来运行查询)。
我的问题:
如果我将新的2TB硬盘添加到主节点并且我想将2TB更多上传到主节点,我如何同时使用HDD(旧硬盘中的数据和主硬盘中的新硬盘)?有没有办法在hdfs-site.xml中提供多个硬盘路径?
我是否需要在从节点中添加4TB硬盘(主机中的所有数据)才能使用100%的从机CPU?或者奴隶可以从主数据库访问数据并运行Map / Reduce作业吗?
如果我将4TB添加到slave并将数据上传到hadoop。是否会在master(重复)中进行任何复制?我可以访问从站的主硬盘和主硬盘的主硬盘中的所有数据吗?如果我这样做,查询是否使用两个节点的100%CPU?
总的来说,如果我有一个10TB的数据。配置Hadoop双节点集群的正确方法是什么?我应该使用什么规范(对于master和datanode)来快速运行Hive查询?
我卡住了。我真的需要你的建议和帮助。
提前感谢。
答案 0 :(得分:1)
请在下面找到答案: