Pi0机器人VLA具身智能大模型昇腾适配-优化使用指南(A2单卡推理跑进80毫秒)
✨ pi0机器人VLA端到端操作大模型介绍
pi0是一个视觉-语言-动作(VLA)模型,专为通用机器人控制而设计。它基于预训练的视觉语言模型(VLM),结合流匹配(flow matching)机制,能够生成高频连续动作,实现对复杂、灵巧机器人任务的精准控制。整合OXE开源数据集和自有数据集,总计超过10,000小时机器人操作数据。在叠衣服、桌面清理、装盒等复杂任务上表现优异,零样本和微调设置下均显著优于现有基线方法(OpenVLA、Octo、ACT等)。成功完成5-20分钟的长时序多阶段任务,展现出强大的鲁棒性和泛化能力。pi0的模型架构图如下图所示:

✨ CANN开源开放具身代码仓介绍
CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的异构计算架构,对上支持多种AI框架,对下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。
cann-recipes-embodied-intelligence仓库旨在针对具身智能业务中的典型模型、加速算法,提供基于CANN平台的优化样例,方便开发者简单、快速、高效地基于CANN平台使用具身智能模型,丰富CANN开源开放生态。
基于LeRobot库,在昇腾Atlas A2环境适配Pi0模型的pytorch版本(模型大小3.3B),通过使能昇腾融合算子、图模式、计算逻辑优化等手段,实现了较低的推理时延,单卡上单次推理时间跑进 80 毫秒。目前,Pi0模型在昇腾A2上的迁移优化代码已经开源在gitcode代码管理平台(https://gitcode.com/cann/cann-recipes-embodied-intelligence),为将来CANN开源开放生态中pi0等多种机器人具身大模型在昇腾系列处理器上的训练-推理-部署等适配优化提供了参考。
欢迎大家多多star加星 / fork / 转发,多交流。
✨ 样例列表
| 实践 | 简介 |
|---|---|
| Pi0 | 基于LeRobot库,在Atlas A2环境适配Pi0模型,通过使能融合算子、图模式、计算逻辑优化等手段,实现了较低的推理时延。 |
鲲鹏昇腾开发者社区是面向全社会开放的“联接全球计算开发者,聚合华为+生态”的社区,内容涵盖鲲鹏、昇腾资源,帮助开发者快速获取所需的知识、经验、软件、工具、算力,支撑开发者易学、好用、成功,成为核心开发者。
更多推荐



所有评论(0)