我是hadoop的新手,我花了几个小时试图谷歌这个问题,但我找不到任何有用的东西。我的问题是HDFS说文件仍然是打开的,即使写入它的过程已经很久了。这使得无法从文件中读取。
我在目录上运行了fsck,它报告一切都很健康。但是,当我运行“hadoop fsck -fs hdfs:// hadoop / logs / raw / directory_containing_file -openforwrite”时,我得到了
Status: CORRUPT
Total size: 222506775716 B
Total dirs: 0
Total files: 630
Total blocks (validated): 3642 (avg. block size 61094666 B)
********************************
CORRUPT FILES: 1
MISSING BLOCKS: 1
MISSING SIZE: 30366208 B
********************************
Minimally replicated blocks: 3641 (99.97254 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 0 (0.0 %)
Mis-replicated blocks: 0 (0.0 %)
Default replication factor: 2
Average block replication: 2.9991763
Corrupt blocks: 0
Missing replicas: 0 (0.0 %)
Number of data-nodes: 23
Number of racks: 1
再次对openforwrite我得到的文件执行fsck命令
.Status: HEALTHY
Total size: 793208051 B
Total dirs: 0
Total files: 1
Total blocks (validated): 12 (avg. block size 66100670 B)
Minimally replicated blocks: 12 (100.0 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 0 (0.0 %)
Mis-replicated blocks: 0 (0.0 %)
Default replication factor: 2
Average block replication: 3.0
Corrupt blocks: 0
Missing replicas: 0 (0.0 %)
Number of data-nodes: 23
Number of racks: 1
有没有人知道发生了什么以及如何解决它?
答案 0 :(得分:1)
我发现这些块似乎丢失了,因为namenode服务器暂时不可用,从而破坏了该文件的文件系统。看来文件的一部分没有丢失的块仍然可以被读取/复制。有关处理hdfs中的损坏的更多信息,请访问https://twiki.grid.iu.edu/bin/view/Storage/HadoopRecovery(镜像:http://www.webcitation.org/5xMTitU0r)
编辑:似乎这个问题是由于Scribe(或更具体地说是Scribe使用的DFSClient)在尝试写入HDFS时出现问题。我们使用HADOOP-6099和HDFS-278手动修补了hadoop集群的源代码,重建了二进制文件并使用新版本重新启动了集群。在我们使用新版本运行的两个月内没有出现任何问题。