奇怪的“试图访问设备之外​​的终端”,在哪里看?

时间:2019-09-16 14:25:51

标签: xen ext4

我正在公司网络上运行一些Xen服务器。最近,在其中一个服务器上,我试图从另一台计算机上同步(在Dom0控制台上)一个大服务器映像,但是每次运行30到100 GB之间的系统崩溃。 syslog和内核日志显示如下:

Sep 12 16:41:19 ampxen1 kernel: [ 1730.917516] attempt to access beyond end of device
Sep 12 16:41:19 ampxen1 kernel: [ 1730.917518] dm-1: rw=1, want=8878402463988083936, limit=3759505408
Sep 12 16:41:19 ampxen1 kernel: [ 1730.917520] EXT4-fs warning (device dm-1): ext4_end_bio:323: I/O error 10 writing to inode 33030164 (offset 47354740736 size 5881856 starting block 1109800307998510491)

...每秒继续以数十万条类似的行继续运行,最终使机器无法访问。显然,要看的是EXT4写入操作的起始块数量非常多(即10 ^ 18或exabyte范围),但是我找不到任何可能的原因。

该服务器基于ubuntu-18.04.03,这是从存储库安装的标准xen。存储是RAID1中的两个2​​TB磁盘,如下所示,在用于我们服务器映像的大分区上配置了EXT4文件系统。我已经用smartctl检查了磁盘,并用e2fsck检查了文件系统,以了解它的价值。这似乎是一个文件系统问题,但是我想知道xen内核是否可能涉及。关于寻找什么的任何想法将不胜感激!

$ lsblk
NAME                         MAJ:MIN RM  SIZE RO TYPE  MOUNTPOINT
loop0                          7:0    0  500G  0 loop  
sda                            8:0    0  1,8T  0 disk  
├─sda1                         8:1    0  476M  0 part  /boot/efi
├─sda2                         8:2    0  1,8T  0 part  
│ └─md0                        9:0    0  1,8T  0 raid1 
│   ├─ampxen1.0-ampxen1.dom0 253:0    0 23,3G  0 lvm   /
│   └─ampxen1.0-ampxen1.vms0 253:1    0  1,8T  0 lvm   /srv/vms0
└─sda3                         8:3    0 46,5G  0 part  [SWAP]
sdb                            8:16   0  1,8T  0 disk  
├─sdb1                         8:17   0  476M  0 part  
├─sdb2                         8:18   0  1,8T  0 part  
│ └─md0                        9:0    0  1,8T  0 raid1 
│   ├─ampxen1.0-ampxen1.dom0 253:0    0 23,3G  0 lvm   /
│   └─ampxen1.0-ampxen1.vms0 253:1    0  1,8T  0 lvm   /srv/vms0
└─sdb3                         8:19   0 46,5G  0 part  [SWAP]

1 个答案:

答案 0 :(得分:0)

我终于发现问题出在与错误的RAM块一样琐碎的问题–运行memtest在四个16GB块之一上显示出很多错误。似乎只有在复制大文件时才完全用完内存,而我在计算机上现有的虚拟服务器在所有其他时间都运行良好。