环境准备

确保系统已安装 Python 3.8 或更高版本,推荐使用 Anaconda 或 Miniconda 管理虚拟环境。

conda create -n llama_factory python=3.10
conda activate llama_factory

安装 PyTorch(根据 CUDA 版本选择对应命令):

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118  # CUDA 11.8

安装 LLaMa-Factory

克隆仓库并安装依赖:

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .[metrics]

模型下载与配置

下载基座模型(如 Llama-2-7b)至 ./models 目录,结构如下:

models/
└── llama-2-7b/
    ├── config.json
    ├── model.safetensors
    └── tokenizer.json

修改 src/llamafactory/model/configs/model_args.yaml,指定模型路径:

model_name_or_path: "./models/llama-2-7b"

启动 WebUI

使用 llamafactory-cli 启动交互界面:

llamafactory-cli webui --port 7860

访问 http://localhost:7860 即可进入 Web 界面。

关键问题解决

  1. CUDA 版本不匹配
    通过 nvcc --version 检查 CUDA 版本,确保 PyTorch 的 CUDA 版本与之兼容。

  2. 显存不足
    webui 命令中添加 --load_in_4bit 启用 4-bit 量化:

    llamafactory-cli webui --load_in_4bit --port 7860
    

  3. 依赖冲突
    使用 pip check 排查冲突,必要时重建虚拟环境。

进阶配置

  • 多 GPU 训练
    model_args.yaml 中设置 ddp_backend="nccl" 并指定 CUDA_VISIBLE_DEVICES
  • 自定义数据集
    将数据转换为 JSON 格式,存放于 data/ 目录,并在 WebUI 中选择对应数据集。

日志监控

运行日志默认输出至 logs/ 目录,可通过 tail -f logs/webui.log 实时查看状态。

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐