带RAID的HDP集群?

时间:2016-09-20 09:40:51

标签: hadoop hortonworks-data-platform raid bigdata

您在HDP群集上使用RAID1的经历是什么?

我有两种选择:

  1. 为主节点和动物园节点设置RAID 1,并且在kafka代理,hbase regionservers和yarn nodemanager等从属节点上根本不使用RAID。
  2. 即使我松开了一个从属节点,我还有另外两个副本。 在我看来,RAID只会减慢我的群集速度。

    1. 尽管如此,请使用RAID 1设置所有内容。
    2. 你怎么看?您对HDP和RAID的体验是什么? 您如何考虑将RAID 0用于从节点?

1 个答案:

答案 0 :(得分:1)

我建议在Hadoop主机上不要使用RAID。有一点需要注意,如果您正在运行像Oozie这样的服务以及在幕后使用关系数据库的Hive Metastore,那么raid可能在数据库主机上有意义。

在主节点上,假设您有Namenode,zookeeper等 - 通常在服务中内置冗余。对于名称节点,所有数据都存储在两个名称节点上。对于Zookeeper,如果丢失一个节点,则其他两个节点都拥有所有信息。

Zookeeper喜欢快速磁盘 - 理想情况下,将完整磁盘专用于zookeeper。如果您有namenode HA,请将namenode edits目录和每个日志节点都指定为专用磁盘。

对于从属节点,datanode将在所有磁盘上写入,无论如何都有效地剥离数据。每个'write'最多都是HDFS块大小,所以如果你正在写一个大文件,你可以在磁盘1上获得128MB,然后在磁盘上获得下一个128MB等等。