我已经下载了companion files脚本来设置hadoop配置。它包含/scripts/directories.sh
文件,包含以下块:
# Space separated list of directories where NameNode will store file system image. For example, /grid/hadoop/hdfs/nn /grid1/hadoop/hdfs/nn
DFS_NAME_DIR="TODO-LIST-OF-NAMENODE-DIRS";
# Space separated list of directories where DataNodes will store the blocks. For example, /grid/hadoop/hdfs/dn /grid1/hadoop/hdfs/dn /grid2/hadoop/hdfs/dn
DFS_DATA_DIR="TODO-LIST-OF-DATA-DIRS";
# Space separated list of directories where SecondaryNameNode will store checkpoint image. For example, /grid/hadoop/hdfs/snn /grid1/hadoop/hdfs/snn /grid2/hadoop/hdfs/snn
FS_CHECKPOINT_DIR="TODO-LIST-OF-SECONDARY-NAMENODE-DIRS";
"目录列表"是什么意思?据我所知,列表shpuld是来自不同HDD的目录,如果我只使用一个驱动器(例如用于测试目的),则只需创建和设置一个驱动器即可。我错了吗?
答案 0 :(得分:0)
Hadoop的一般原则是拥有更多磁盘总是有帮助,例如为NameNode提供多个磁盘让NameNode将其元数据复制到多个磁盘 - 因此NameNode可以承受单个磁盘故障,同样为DataNode提供更多磁盘#39; s将允许DataNode以循环方式剥离和写入数据到所有磁盘以获得更好的吞吐量。同样,所有守护进程都会利用多个磁盘(如果提供)。
据我所知,列表shpuld是来自不同HDD的目录
是的,建议将每个磁盘安装到一个单独的目录中,否则如果你提供多个目录并且所有目录都在同一个物理磁盘中创建,则多个守护进程/线程将成为瓶颈&# 39;在磁盘I / O上编辑。
如果我只使用一个驱动器(例如用于测试目的),只需创建和设置一个
是的,出于测试目的,只要您有足够的空间,就可以提供一个安装到单个物理磁盘甚至是根分区的目录。