参数效率极高
全量微调需更新模型所有参数(如 1750 亿参数的 GPT-3),而 LoRA 仅需训练低秩矩阵(秩 r=16 时,参数量通常为原模型的 0.1%~1%),大幅降低内存和算力需求。

训练更稳定
冻结预训练权重避免了大规模参数更新导致的 “灾难性遗忘”(预训练知识丢失),且低秩矩阵初始化简单(B 初始为 0,训练初期接近原模型输出),收敛更快。

部署便捷
推理时可合并权重,保持原模型结构,无需修改推理框架;也可单独保存低秩矩阵(A 和 B),实现 “一个基模型 + 多个任务 LoRA 权重” 的轻量部署(如切换任务仅需加载对应 LoRA 参数)。

性能接近全量微调
在多数任务(如文本分类、生成、翻译)中,LoRA 微调的性能与全量微调相当,甚至在小数据集上更优(避免过拟合)。

Logo

鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。

更多推荐