问题描述

LLaMa-Factory 在 Windows 环境下通过 llamafactory-cli webui 启动时出现闪退现象,需通过日志分析定位问题并解决。


日志文件路径

日志通常位于以下目录:

  • C:\Users\<用户名>\.llamafactory\logs\
  • 或项目根目录下的 logs/ 文件夹。

若未找到日志,可通过命令行手动记录输出:

llamafactory-cli webui 2>&1 | tee webui.log


常见错误及解决方案

1. 环境依赖缺失

日志中可能包含 ModuleNotFoundErrorImportError,例如缺少 torchtransformers 等库。

解决方法
重新检查依赖安装:

pip install -r requirements.txt

确保 CUDA 版本与 PyTorch 匹配:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

2. CUDA 版本冲突

日志中出现 CUDA out of memoryCUDA version mismatch

解决方法
检查显卡驱动和 CUDA 工具包版本:

nvidia-smi
nvcc --version

卸载冲突版本并重新安装匹配的 PyTorch。

3. 端口占用

日志中提示 Address already in use

解决方法
关闭占用端口的进程或修改 WebUI 端口:

llamafactory-cli webui --port 8081

4. 配置文件错误

日志中提示 KeyErrorConfigParseError

解决方法
检查 configs/ 下的配置文件,确保格式正确。必要时重置默认配置:

llamafactory-cli config --reset

5. 显存不足

日志中提示 RuntimeError: CUDA out of memory

解决方法
降低批量大小或启用梯度检查点:

llamafactory-cli webui --batch_size 4 --gradient_checkpointing


高级调试

1. 启用详细日志

通过 --verbose 参数获取更多信息:

llamafactory-cli webui --verbose

2. 检查硬件兼容性

更新显卡驱动至最新版本,并确保支持 FP16 计算。

3. 临时禁用 GPU

测试是否为 GPU 相关故障:

llamafactory-cli webui --no_cuda


其他建议

  • 确保 Python 版本 ≥3.8。
  • 使用 condavenv 隔离环境。
  • 尝试以管理员权限运行命令提示符。
Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐