一、故障背景

服务器环境

  • 服务器型号:华为 TaiShan 200 系列(鲲鹏 920 ARM 架构)
  • 操作系统:CentOS 7.6 / 7.8 aarch64
  • 分区结构:LVM 逻辑卷(centos-root 50G、centos-home 34.9T)

故障原因

根分区 / 空间不足(仅 50G),为释放空间,错误将 /var 目录移动到 /home 并创建软链接,重启后系统直接无法启动。

【图 1】根分区空间不足,导致系统卡死

故障现象

  1. 本地显示器/键盘:黑屏、光标闪烁,无法进入命令行
  2. 网络可ping通,但SSH连接立即断开
  3. GRUB单用户模式/救援模式:启动卡死,无法进入 shell
  4. 华为iBMC 远程管理:可远程开关机,但无法操作硬盘文件、无法修复系统

二、问题 1:BIOS 中看不到 U 盘启动项(鲲鹏专属坑)

现象

制作好 银河麒麟 V10 ARM64 U 盘启动盘后,进入 BIOS 启动菜单,在 EFI 启动顺序列表(第 1~4 启动项)直接看不到 U 盘

正确解决步骤

  1. 服务器开机 → 连续按 F2 进入 BIOS
  2. 切换到 Boot(启动) 选项卡
  3. 选中任意启动项(如 Boot Option #1)
  4. 按 Enter 进入二级设备列表
  5. 此时即可看到已插入的U盘(显示 UEFI: U 盘品牌名称)
  6. 将U盘设置为第一启动项
  7. F10保存并重启

配图说明(直接插入你的截图)

【图 2】BIOS Boot 主界面,默认不显示 U 盘

【图 3】选中启动项按 Enter,进入二级设备列表,二级列表中显示 U 盘 UEFI 启动项


三、问题 2:iBMC 远程管理无法修复系统

iBMC 管理地址:192.168.2.100

  • 可登录、可远程开关机、可查看虚拟控制台
  • 无法挂载硬盘、无法读写系统文件、无法执行修复命令

结论:iBMC 只能看状态,不能救系统,必须用 U 盘 Live 系


四、最终解决方案:U 盘启动 Live 系统修复 LVM

所需工具

  1. U 盘(≥8GB)
  2. 银河麒麟 V10 ARM64 Live 镜像(必须 ARM 架构)
  3. Rufus 制作启动盘(GPT + UEFI + NTFS/FAT32)

【图 4】使用rufus制作linux启动盘


五、详细修复步骤(LVM 分区专用,零风险)

步骤 1:U 盘启动进入 Live 系统

  1. U 盘插入服务器后置 USB 接口
  2. 从U盘引导
  3. 选择:试用银河麒麟系统而不安装
  4. 进入桌面后,右键打开终端

步骤 2:切换 root 用户

bash

sudo su -

步骤 3:激活 LVM 卷组(必须执行!)

bash

vgchange -ay

步骤 4:查看磁盘分区(定位根分区)

bash

lsblk

结果说明

  • sda3:系统 LVM 物理卷
  • centos-root:50G → 系统根分区 /
  • centos-home:34.9T → /home 大分区
  • centos-swap:交换分区
  • sdb:业务数据盘(不操作)
  • sdc:U 盘启动盘

配图说明

【图 5】lsblk 分区结果截图

步骤 5:挂载系统分区(关键)

bash

# 创建临时挂载目录

mkdir -p /mnt/root

# 挂载根分区

mount /dev/mapper/centos-root /mnt/root

# 挂载 /home 分区(/var 被移到此分区)

mount /dev/mapper/centos-home /mnt/root/home

步骤 6:验证目录结构(避免误删)

bash

# 查看 /var:软链接(lrwxrwxrwx 开头)

ls -ld /mnt/root/var

# 查看 /home/var:真实目录(drwxr-xr-x 开头)

ls -ld /mnt/root/home/var

配图说明

【图6】/mnt/root/var 为软链接(错误链接)

【图 7】/mnt/root/home/var 为真实目录(数据在此)

步骤 7:执行修复(仅 3 条命令,救回服务器)

bash

1. 删除无效软链接(只删快捷方式,不删数据)

rm -f /mnt/root/var

2. 将 /var 移回根分区(恢复原状)

mv /mnt/root/home/var /mnt/root/var

 3. 安全卸载分区

umount /mnt/root/home

umount /mnt/root

配图说明

【图 8】修复命令执行成功界面

步骤 8:重启恢复系统

  1. 拔掉 U 盘
  2. 执行重启命令

bash

reboot

修复结果

  • 服务器正常启动
  • 本地命令行可用
  • SSH 可正常登录
  • 所有业务数据完整无损

六、崩溃根本原因(避坑必看)

  1. /var 是系统核心目录,开机必须可用
  2. 软链接将 /var → /home/var
  3. 系统启动顺序:先挂载 / → 再启动服务 → 最后挂载 /home
  4. 启动时/home 未挂载,/var 变成悬空软链接
  5. systemd 无法初始化,系统直接卡死

七、根分区空间不足正确方案(安全不崩溃)

推荐:绑定挂载(bind mount)—— 生产标准方案

bash

停止相关服务

systemctl stop rsyslog crond auditd

同步数据

rsync -av /var/ /home/var/

备份原目录

mv /var /var.bak

# 创建空挂载点

mkdir /var

配置 fstab 永久生效

echo "/home/var /var none bind 0 0" >> /etc/fstab

挂载并验证

mount /var

df -h /var

df -h查看分区

文件系统                 容量  已用  可用 已用% 挂载点

devtmpfs                 128G     0  128G    0% /dev

tmpfs                    128G   64K  128G    1% /dev/shm

tmpfs                    128G   62M  128G    1% /run

tmpfs                    128G     0  128G    0% /sys/fs/cgroup

/dev/mapper/centos-root   50G   24G   27G   48% /

/dev/sda2               1016M  160M  856M   16% /boot

/dev/sda1                200M  9.1M  191M    5% /boot/efi

/dev/mapper/centos-home   35T   15T   20T   44% /home

tmpfs                     26G  192K   26G    1% /run/user/42

overlay                   35T   15T   20T   44% /home/docker/overlay2/xxx/merged

tmpfs                     26G     0   26G    0% /run/user/0

✅ 重启不失效

✅ 不崩溃

✅ 服务完全兼容


八、总结(鲲鹏服务器运维避坑)

  1. 鲲鹏BIOS U盘启动项需 Enter 进入二级菜单才显示
  2. iBMC只能远程控制,不能修复系统文件
  3. /var /run /etc严禁使用软链接
  4. LVM 分区修复必须先执行 vgchange -ay
  5. 目录迁移请用 bind 绑定挂载,安全稳定

(结束)
Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐