您在HDP群集上使用RAID1的经历是什么?
我有两种选择:
即使我松开了一个从属节点,我还有另外两个副本。 在我看来,RAID只会减慢我的群集速度。
你怎么看?您对HDP和RAID的体验是什么? 您如何考虑将RAID 0用于从节点?
答案 0 :(得分:1)
我建议在Hadoop主机上不要使用RAID。有一点需要注意,如果您正在运行像Oozie这样的服务以及在幕后使用关系数据库的Hive Metastore,那么raid可能在数据库主机上有意义。
在主节点上,假设您有Namenode,zookeeper等 - 通常在服务中内置冗余。对于名称节点,所有数据都存储在两个名称节点上。对于Zookeeper,如果丢失一个节点,则其他两个节点都拥有所有信息。
Zookeeper喜欢快速磁盘 - 理想情况下,将完整磁盘专用于zookeeper。如果您有namenode HA,请将namenode edits目录和每个日志节点都指定为专用磁盘。
对于从属节点,datanode将在所有磁盘上写入,无论如何都有效地剥离数据。每个'write'最多都是HDFS块大小,所以如果你正在写一个大文件,你可以在磁盘1上获得128MB,然后在磁盘上获得下一个128MB等等。