昇思训练营—模型LoRA微调

也可单独保存低秩矩阵（A 和 B），实现 “一个基模型 + 多个任务 LoRA 权重” 的轻量部署（如切换任务仅需加载对应 LoRA 参数）。全量微调需更新模型所有参数（如 1750 亿参数的 GPT-3），而 LoRA 仅需训练低秩矩阵（秩 r=16 时，参数量通常为原模型的 0.1%~1%），大幅降低内存和算力需求。冻结预训练权重避免了大规模参数更新导致的 “灾难性遗忘”（预训练知识丢失），且

lugang139

115人浏览 · 2025-08-04 19:41:21

lugang139 · 2025-08-04 19:41:21 发布

参数效率极高
全量微调需更新模型所有参数（如 1750 亿参数的 GPT-3），而 LoRA 仅需训练低秩矩阵（秩 r=16 时，参数量通常为原模型的 0.1%~1%），大幅降低内存和算力需求。

训练更稳定
冻结预训练权重避免了大规模参数更新导致的 “灾难性遗忘”（预训练知识丢失），且低秩矩阵初始化简单（B 初始为 0，训练初期接近原模型输出），收敛更快。

部署便捷
推理时可合并权重，保持原模型结构，无需修改推理框架；也可单独保存低秩矩阵（A 和 B），实现 “一个基模型 + 多个任务 LoRA 权重” 的轻量部署（如切换任务仅需加载对应 LoRA 参数）。

性能接近全量微调
在多数任务（如文本分类、生成、翻译）中，LoRA 微调的性能与全量微调相当，甚至在小数据集上更优（避免过拟合）。

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者，聚合华为+生态”的社区，内容涵盖鲲鹏、昇腾资源，帮助开发者快速获取所需的知识、经验、软件、工具、算力，支撑开发者易学、好用、成功，成为核心开发者。

更多推荐

鲲鹏+昇腾：开启 AI for Science 新范式——基于PINN的流体仿真加速实践

鲲鹏昇腾开发者社区

鲲鹏 DevKit 持续集成部署实践：从零搭建 CI/CD 流水线

随着项目规模不断扩大，构建一条简单、稳定、自动化的 CI/CD 流水线变得越来越重要。鲲鹏 DevKit 在这一方面提供了完整的工具链支持，从代码检查到构建、测试、部署都有覆盖，让我们能够在国产化环境中快速搭建可靠的持续交付体系。我将结合实际使用经验，介绍如何基于 DevKit 构建一条完整、高效的 CI/CD 流水线，并给出相关配置示例与最佳实践。本次实验是在华为云开发者空间上进行的，点击进入D