我正在公司网络上运行一些Xen服务器。最近,在其中一个服务器上,我试图从另一台计算机上同步(在Dom0控制台上)一个大服务器映像,但是每次运行30到100 GB之间的系统崩溃。 syslog和内核日志显示如下:
Sep 12 16:41:19 ampxen1 kernel: [ 1730.917516] attempt to access beyond end of device
Sep 12 16:41:19 ampxen1 kernel: [ 1730.917518] dm-1: rw=1, want=8878402463988083936, limit=3759505408
Sep 12 16:41:19 ampxen1 kernel: [ 1730.917520] EXT4-fs warning (device dm-1): ext4_end_bio:323: I/O error 10 writing to inode 33030164 (offset 47354740736 size 5881856 starting block 1109800307998510491)
...每秒继续以数十万条类似的行继续运行,最终使机器无法访问。显然,要看的是EXT4写入操作的起始块数量非常多(即10 ^ 18或exabyte范围),但是我找不到任何可能的原因。
该服务器基于ubuntu-18.04.03,这是从存储库安装的标准xen。存储是RAID1中的两个2TB磁盘,如下所示,在用于我们服务器映像的大分区上配置了EXT4文件系统。我已经用smartctl检查了磁盘,并用e2fsck检查了文件系统,以了解它的价值。这似乎是一个文件系统问题,但是我想知道xen内核是否可能涉及。关于寻找什么的任何想法将不胜感激!
$ lsblk
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
loop0 7:0 0 500G 0 loop
sda 8:0 0 1,8T 0 disk
├─sda1 8:1 0 476M 0 part /boot/efi
├─sda2 8:2 0 1,8T 0 part
│ └─md0 9:0 0 1,8T 0 raid1
│ ├─ampxen1.0-ampxen1.dom0 253:0 0 23,3G 0 lvm /
│ └─ampxen1.0-ampxen1.vms0 253:1 0 1,8T 0 lvm /srv/vms0
└─sda3 8:3 0 46,5G 0 part [SWAP]
sdb 8:16 0 1,8T 0 disk
├─sdb1 8:17 0 476M 0 part
├─sdb2 8:18 0 1,8T 0 part
│ └─md0 9:0 0 1,8T 0 raid1
│ ├─ampxen1.0-ampxen1.dom0 253:0 0 23,3G 0 lvm /
│ └─ampxen1.0-ampxen1.vms0 253:1 0 1,8T 0 lvm /srv/vms0
└─sdb3 8:19 0 46,5G 0 part [SWAP]
答案 0 :(得分:0)
我终于发现问题出在与错误的RAM块一样琐碎的问题–运行memtest在四个16GB块之一上显示出很多错误。似乎只有在复制大文件时才完全用完内存,而我在计算机上现有的虚拟服务器在所有其他时间都运行良好。