我刚刚配置了一个克隆hadoop版本2.7.3,我将我的数据大小从1 g加载到20 go我使用这些数据(可以操作它们......)但是当我重新启动集群时这个数据没有不可加入。 我会有这样的信息: 警告:大约有xx缺失块。请检查日志或运行fsck,这意味着HDFS安装中的某些块在任何实时DataNode上没有单个副本。 这是hdfs-site.xml:
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///home/hduser/hadoop-2.7.3/namenode</value>
<description>NameNode directory for namespace and transaction logs storage.</description>
</property>
<property>
<name>dfs.safemode.threshold.pct</name>
<value>0</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.datanode.use.datanode.hostname</name>
<value>false</value>
</property>
<property>
<name>dfs.namenode.datanode.registration.ip-hostname-check</name>
<value>false</value>
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>node1:50070</value>
<description>Your NameNode hostname for http access.</description>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node1:50090</value>
<description>Your Secondary NameNode hostname for http access.</description>
</property>
</configuration>
答案 0 :(得分:0)
属性dfs.datanode.data.dir
的默认值为${hadoop.tmp.dir}/dfs/data
, hadoop.tmp.dir
为/tmp
,在重新启动时会清除,因此所有块都会被清除迷路了。
您必须将此属性添加到所有数据节点中的hdfs-site.xml
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///home/hduser/hadoop-2.7.3/datanode</value>
</property>