如何配置Hadoop,使每个datanode使用不同的目录进行存储?
每个datanode共享一个存储空间。我想datanode1使用dir1,datanode2来使用dir2。首先,我将所有数据节点配置为使用共享存储中的同一目录,结果发现只有一个数据节点正在运行。
答案 0 :(得分:2)
您需要为群集中的每个节点提供一个自定义hdfs-site.xml文件,并正确配置数据目录属性(dfs.data.dir
)。如果您当前正在使用hadoop配置的共享目录,那么您还需要修改您的操作方式。
有些痛苦,我猜你可以尝试使用一些shell脚本来生成文件,或者使用Puppet或Chef等工具。
回到你的问题 - 你为什么使用NFS,你在某种程度上打败了数据局部性 - Hadoop旨在将代码移动到数据所在的位置,而不是(如你的情况)将代码和数据。
如果您正在使用NFS,因为它有一些带有数据冗余的SAN阵列支持,那么您再次为自己制造困难,HDFS将(如果已配置)为您管理数据复制,假设您拥有足够大的群集并且它配置正确。理论上,使用商用硬件也应该比使用昂贵的SAN支持成本更低(取决于我的设置/情况)
答案 1 :(得分:0)
我不知道它是否是粗暴的做法,但这是我如何在namenode中自定义slaves.sh文件来实现每个datanode的不同目录结构:
编辑在$HADOOP_HOME/bin/slaves.sh
中的每个datanode上执行的ssh remote命令:
for slave in `cat "$HOSTLIST"|sed "s/#.*$//;/^$/d"`; do
# If the slave node is ap1001 (first datanode),
# Then use a different directory path for SSH command.
if [ $slave == "ap1001" ]
then
input=`/bin/echo $"${@// /\\ }"` >/dev/null 2>&1
# If the command type is start-dfs (start the datanodes)
# Then construct the start command for remote execution on datanode through ssh
/bin/echo $input | grep -i start
if [ $? -eq 0 ]
then
inputArg="cd /app2/configdata/hdp/hadoop-1.2.1 ; /app2/configdata/hdp/hadoop-1.2.1/bin/hadoop-daemon.sh --config /app2/configdata/hdp/hadoop-1.2.1/libexec/../conf start datanode"
else
# If the command type is stop-dfs (stop the datanodes)
# Then construct the stop command for remote execution on datanode through ssh
inputArg="cd /app2/configdata/hdp/hadoop-1.2.1 ; /app2/configdata/hdp/hadoop-1.2.1/bin/hadoop-daemon.sh --config /app2/configdata/hdp/hadoop-1.2.1/libexec/../conf stop datanode"
fi
ssh $HADOOP_SSH_OPTS $slave $inputArg 2>&1 &
else
# Use default command for remaining slaves.
ssh $HADOOP_SSH_OPTS $slave $"${@// /\\ }" \
2>&1 | sed "s/^/$slave: /" &
fi
if [ "$HADOOP_SLAVE_SLEEP" != "" ]; then
sleep $HADOOP_SLAVE_SLEEP
fi
done
答案 2 :(得分:0)
通过创建如下所示的软链接,可以使数据节点和名称节点共享一个公共存储: 主机1:
lrwxrwxrwx 1 user user 39 Dec 2 17:30 /hadoop/hdfs/datanode -> /shared_storage/datanode1/
lrwxrwxrwx 1 user user 39 Dec 2 17:31 /hadoop/hdfs/namenode -> /shared_storage/namenode1/
host2:
lrwxrwxrwx 1 user user 39 Dec 2 17:32 /hadoop/hdfs/datanode -> /shared_storage/datanode2/
lrwxrwxrwx 1 user user 39 Dec 2 17:32 /hadoop/hdfs/namenode -> /shared_storage/namenode2/
host3
lrwxrwxrwx 1 user user 39 Dec 2 17:33 /hadoop/hdfs/datanode -> /shared_storage/datanode3/
lrwxrwxrwx 1 user user 39 Dec 2 17:32 /hadoop/hdfs/namenode -> /shared_storage/namenode3/
host4:
lrwxrwxrwx 1 user user 39 Dec 2 17:33 /hadoop/hdfs/datanode -> /shared_storage/datanode4/
lrwxrwxrwx 1 user user 39 Dec 2 17:33 /hadoop/hdfs/namenode -> /shared_storage/namenode4/
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///hadoop/hdfs/datanode</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///hadoop/hdfs/datanode</value>
</property>