LLaMa-Factory 部署全记录：从环境搭建到 llamafactory-cli webui 启动成功的关键步骤

确保系统已安装 Python 3.8 或更高版本，推荐使用 Anaconda 或 Miniconda 管理虚拟环境。检查 CUDA 版本，确保 PyTorch 的 CUDA 版本与之兼容。下载基座模型（如 Llama-2-7b）至。排查冲突，必要时重建虚拟环境。即可进入 Web 界面。

2501_93891941

290人浏览 · 2025-10-28 17:53:34

2501_93891941 · 2025-10-28 17:53:34 发布

环境准备

确保系统已安装 Python 3.8 或更高版本，推荐使用 Anaconda 或 Miniconda 管理虚拟环境。

conda create -n llama_factory python=3.10
conda activate llama_factory

安装 PyTorch（根据 CUDA 版本选择对应命令）：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118  # CUDA 11.8

安装 LLaMa-Factory

克隆仓库并安装依赖：

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .[metrics]

模型下载与配置

下载基座模型（如 Llama-2-7b）至 ./models 目录，结构如下：

models/
└── llama-2-7b/
    ├── config.json
    ├── model.safetensors
    └── tokenizer.json

修改 src/llamafactory/model/configs/model_args.yaml，指定模型路径：

model_name_or_path: "./models/llama-2-7b"

启动 WebUI

使用 llamafactory-cli 启动交互界面：

llamafactory-cli webui --port 7860

访问 http://localhost:7860 即可进入 Web 界面。

关键问题解决

CUDA 版本不匹配：
通过 nvcc --version 检查 CUDA 版本，确保 PyTorch 的 CUDA 版本与之兼容。
显存不足：
在 webui 命令中添加 --load_in_4bit 启用 4-bit 量化：
```
llamafactory-cli webui --load_in_4bit --port 7860
```
依赖冲突：
使用 pip check 排查冲突，必要时重建虚拟环境。

进阶配置

多 GPU 训练：
在 model_args.yaml 中设置 ddp_backend="nccl" 并指定 CUDA_VISIBLE_DEVICES。
自定义数据集：
将数据转换为 JSON 格式，存放于 data/ 目录，并在 WebUI 中选择对应数据集。

日志监控

运行日志默认输出至 logs/ 目录，可通过 tail -f logs/webui.log 实时查看状态。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

鲲鹏+昇腾：开启 AI for Science 新范式——基于PINN的流体仿真加速实践

鲲鹏昇腾开发者社区

鲲鹏 DevKit 持续集成部署实践：从零搭建 CI/CD 流水线

随着项目规模不断扩大，构建一条简单、稳定、自动化的 CI/CD 流水线变得越来越重要。鲲鹏 DevKit 在这一方面提供了完整的工具链支持，从代码检查到构建、测试、部署都有覆盖，让我们能够在国产化环境中快速搭建可靠的持续交付体系。我将结合实际使用经验，介绍如何基于 DevKit 构建一条完整、高效的 CI/CD 流水线，并给出相关配置示例与最佳实践。本次实验是在华为云开发者空间上进行的，点击进入D