应用错误收集

奇怪的“试图访问设备之外的终端”，在哪里看？

时间：2019-09-16 14:25:51

标签： xen ext4

我正在公司网络上运行一些Xen服务器。最近，在其中一个服务器上，我试图从另一台计算机上同步（在Dom0控制台上）一个大服务器映像，但是每次运行30到100 GB之间的系统崩溃。 syslog和内核日志显示如下：

Sep 12 16:41:19 ampxen1 kernel: [ 1730.917516] attempt to access beyond end of device
Sep 12 16:41:19 ampxen1 kernel: [ 1730.917518] dm-1: rw=1, want=8878402463988083936, limit=3759505408
Sep 12 16:41:19 ampxen1 kernel: [ 1730.917520] EXT4-fs warning (device dm-1): ext4_end_bio:323: I/O error 10 writing to inode 33030164 (offset 47354740736 size 5881856 starting block 1109800307998510491)

...每秒继续以数十万条类似的行继续运行，最终使机器无法访问。显然，要看的是EXT4写入操作的起始块数量非常多（即10 ^ 18或exabyte范围），但是我找不到任何可能的原因。

该服务器基于ubuntu-18.04.03，这是从存储库安装的标准xen。存储是RAID1中的两个2TB磁盘，如下所示，在用于我们服务器映像的大分区上配置了EXT4文件系统。我已经用smartctl检查了磁盘，并用e2fsck检查了文件系统，以了解它的价值。这似乎是一个文件系统问题，但是我想知道xen内核是否可能涉及。关于寻找什么的任何想法将不胜感激！

$ lsblk
NAME                         MAJ:MIN RM  SIZE RO TYPE  MOUNTPOINT
loop0                          7:0    0  500G  0 loop  
sda                            8:0    0  1,8T  0 disk  
├─sda1                         8:1    0  476M  0 part  /boot/efi
├─sda2                         8:2    0  1,8T  0 part  
│ └─md0                        9:0    0  1,8T  0 raid1 
│   ├─ampxen1.0-ampxen1.dom0 253:0    0 23,3G  0 lvm   /
│   └─ampxen1.0-ampxen1.vms0 253:1    0  1,8T  0 lvm   /srv/vms0
└─sda3                         8:3    0 46,5G  0 part  [SWAP]
sdb                            8:16   0  1,8T  0 disk  
├─sdb1                         8:17   0  476M  0 part  
├─sdb2                         8:18   0  1,8T  0 part  
│ └─md0                        9:0    0  1,8T  0 raid1 
│   ├─ampxen1.0-ampxen1.dom0 253:0    0 23,3G  0 lvm   /
│   └─ampxen1.0-ampxen1.vms0 253:1    0  1,8T  0 lvm   /srv/vms0
└─sdb3                         8:19   0 46,5G  0 part  [SWAP]

1 个答案:

答案 0 :(得分：0)

我终于发现问题出在与错误的RAM块一样琐碎的问题–运行memtest在四个16GB块之一上显示出很多错误。似乎只有在复制大文件时才完全用完内存，而我在计算机上现有的虚拟服务器在所有其他时间都运行良好。