科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

上海AI实验室构建具身智能“虚实贯通”技术体系,数字伙伴DigitalBuddy助力降本增效

通专融合的方式实现通用人工智能正日益成为业内共识,其中重要的一层工作是通过具身智能实现AI从数字空间走向物理空间,并在交互中学习、进化。

上海人工智能实验室(上海AI实验室)通过构建“虚实贯通”技术体系进行具身自主探索,并于近期在实验环境中实现了路径全闭环验证。“虚实贯通”技术体系覆盖“真实-模拟-真实”(Real-to-Sim-to-Real)全闭环路径,有望解决现实世界中的机器人数据稀缺问题,并大幅提升训练效率,从而加速打造可自主演进的具身智能进程。

不同于数字孪生(Digital Twin)和数字表亲(Digital Cousins)模拟技术,实验室提出的“数字伙伴”(DigitalBuddy)在AIGC赋能下,其数字环境具备物体类别、外观、几何、布局等全方位多样性,基于仿真引擎并行加速,可实现低成本高效率的具身数据扩增与训练,成为“虚实贯通”体系中的核心技术基础。该技术体系包含三个重要环节:

Real to Sim

通过实景三维大模型等AIGC技术,高效实现实际场景与物体的数字化,推动生成式世界建模,为具身智能研究提供无限扩展的高保真、可交互的数字资产。

Sim

将建模数据导入数字模拟平台,在高保真模拟环境中,进行大批量的训练数据自动化采集,多样化增强,高效训练与客观评测。

Sim to Real

通过构建可泛化交互与控制的具身智能大模型,将在虚拟世界训练好的机器人部署至真实环境。

研究团队实现了上述路径全闭环,并遵循“异构数据预训练、困难任务后训练、真实世界持续学习”的范式构建具身智能大模型,如在“快递驿站”真实作业场景中达成:

  • 基于Real to Sim重建场景,在仿真环境中能以15000条/台天的效率扩增数据,相比于当前约10元/条的真机数据成本,可降至0.02元/条,甚至更低;

  • 在导航任务中,可借助Real to Sim场景将任务成功率从50%提升至80%,并达成跨本体、零样本泛化;

  • 在操作任务中,以仿真与真实5:1的数据配比,可将操作成功率从46.7%提升至93.3%。

这一成功尝试,验证了“虚实贯通”技术体系带来的成本和性能优势,为具身智能技术发展提供了纵深视角与可持续路径参考。在智能制造、仓储物流、能源电力等涉及复杂交互的领域中,虚实贯通技术不仅能够提升模型自动化执行任务的成功率,还能帮助用户以更低成本实现任务迭代优化,显著提升整体运营效率,加速具身智能技术在各行业的落地与普及。

微信图片_20250126153115.png

上海AI实验室构建中的具身智能“虚实贯通”技术体系


Real to Sim生成式世界建模 :AIGC赋能,无限扩展训练要素

现实世界纷繁多彩,如何让模拟世界能够精准贴近真实多样性,成为虚实贯通体系的首要环节。针对具身智能典型训练需求,上海AI实验室研究团队构建出高保真、可交互的Real to Sim框架,基于书生·天际实景三维模型的室内外场景重建能力,不仅将真实世界“迁移”至模拟世界,还可通过AIGC赋能,让场景、物体等训练要素规模无限拓展。在创新的Real to Sim框架中,室内外场景得以进行高保真渲染和高精度几何重建,所生成的物体可进行组合拆分,贴近人类交互习惯。同时,该框架还可无缝接入主流具身智能模拟平台,扩展生成式方法使用潜力。

高保真无限扩展-从物体到场景

在物体生成方面,Real to Sim框架中包含秒级别原生三维物体几何与材质生成模型,覆盖数十类室内可交互三维物体,生成物体具备与真实世界一致的材质属性、部件活动能力。在场景重建方面,使用原创算法Scaffold-GS、Octree-GS等与主流自动化工具,数小时内完成室内外场景几何重建精度达到厘米级,可视化渲染效果国际领先。对于人体动作生成,研究团队自主研发人体生成模型与原生动作控制大模型,让机器人在模拟场景中亦可向人类学习。 

微信图片_20250126153728.gif

微信图片_20250126153146.gif

基于Real to Sim框架生成的室内场景与三维物体

双端驱动可交互-从编辑到组合

在Real to Sim框架中,借助基于Mesh的几何和Gaussian Splatting的渲染双端同步驱动,实现了场景中的物体、人物等要素的实时编辑与组合。通过精细的重打光和阴影投射等手段,提升虚拟场景的真实感和协调性。研究人员可在灵活交互中,高效采集训练数据。

微信图片_20250126153953.gif

微信图片_20250126154003.gif


微信图片_20250126154007.gif

微信图片_20250126153159.gif



双端驱动可灵活实现人-人、人-物、物-物等要素交互


Sim数字模拟平台:走进虚拟,走向现实

针对真实场景训练数据匮乏的核心痛点,上海AI实验室在业内较早开展数字模拟平台构建,于2024年7月发布了首个城市级具身智能仿真平台浦源·桃源。经过进一步的场景数据增广和操作方式更新,目前浦源·桃源已具备大规模数据生产能力,适配多类型机器人,成为更高效易用的模拟平台。近期浦源·桃源将迎来升级开源,敬请期待。   

高效灵活的数据采集

面向机器人操作任务,研究团队通过运动规划器,利用仿真环境中的全局信息和特定目标约束条件,规划出充分考虑避障的轨迹。在执行轨迹的过程中,系统会记录多视角图像和机器人的动作数据,从而实现机器人端到端操作示教数据的合成。利用该方法,基于单机即实现15000条/天的高质量数据生产速度。此外,仿真环境中的物体、布局、桌面背景、光照条件等因素均可通过域随机化和样本增广进行调整,数据多样性得以拓展。

微信图片_20250126153204.gif

机器人操作数据自动化生成与样本增广

对于运动规划器难以自动生成轨迹的任务,可以通过遥操作的方式在仿真环境中收集数据。为弥补传统遥操作工具活动范围、距离感知、动作精度弱等带来的数据采集方式限制,研究人员为浦源·桃源引入VR、动作捕捉、双手协调的等机器人遥操作手段,提升模拟数据采集效率。其中,首创设计双手协调的“隔空操作模式”,以右手控制机器人的运动,左手完成视角转换、坐标系重定位和运动精度调整的功能。   

微信图片_20250126154720.gif

微信图片_20250126153209.gif

首创双手协调的“隔空操作模式”

面向导航任务的数据采集,利用全局地图ESDF并行采样合成海量轨迹数据,较人工操作传统方式提升近20倍,具备大规模推广前景。研究人员同时模拟了轮式,足式,人形机器人的导航视角与运动过程,用于提升跨机器人导航能力的泛化。


微信图片_20250126153215.jpg微信图片_20250126153220.gif

导航任务中轨迹可视化渲染效果


Sim to Real具身智能大模型:大小脑协同,仿真到现实无缝转换

由模拟迈入现实,是“虚实贯通”技术体系的关键一环。为此,研究团队构建出首个集导航、操作、自主进化为一体的具身大模型系统,以高泛化性能实现从仿真到现实的无缝转换。

感知和规划是合理执行任务的第一步,融合上海AI实验室书生大模型体系的长期技术积淀,研究团队以大模型充实机器人“大脑”,让感知更敏锐,规划更周密。

为获取更好的外部感知能力,研究人员基于书生大模型,进一步提升了三维感知和长时序记忆能力,用于理解语言指令,并为下游任务执行提供准确的任务规划。微调后的书生大模型,能够实现场景中语言指令和物体摆放的可泛化感知能力,包括准确率89.6%(3D IoU@0.25)的三维定位和90%以上的(tIoU@0.3)任意时刻回溯能力,进一步实现任务拆分、动作规划、错误纠正,闭环执行和可视化大脑思考过程等核心功能,零样本情况下,多轮任务规划成功率达80%。

微信图片_20250126153224.gif

微信图片_20250126153229.gif

大模型可准确理解指令、感知目标、完成复杂任务规划与纠错检测 

导航策略网络通过虚实闭环训练了一个带有Critic的通用扩散模型,可实现无需建图跨场景跨本体导航的泛化能力,在轮式、四足、人形等不同具身智能机器人上,室内外自适应局部避障导航任务成功率可达80%以上成功率,应对穿越杂物、小门等复杂情况。

操作则基于端到端模型Seer,以实现视觉预测和动作执行的高度协调,在处理未见物体、光照干扰和背景切换等复杂任务场景中,表现出优异的泛化能力。如货架上取物装箱的位置泛化成功率能达到95%以上。

微信图片_20250126153233.gif

微信图片_20250126153236.gif

确定目标物体后,导航策略网络可在轨迹中灵活避障,操作策略网络可完成大量干扰物下的鲁棒执行

通过导航及操作两项任务的实践,研究团队认为,“虚实贯通”技术体系可有效推动具身智能由仿真到现实的“无缝转换”,助力训练降本增效。

如下图(左)所示,仿真异构数据预训练可泛化基础策略,纯仿真数据(Sim)训练的导航策略可零样本泛化实现50%成功率,增加Real2Sim数据可以进一步减小 Sim2Real Gap,比例至15:4,成功率提升至80%。同时,在操作任务后训练过程中补充多样化仿真数据(Sim),可减少训练对真机数据的依赖,显著降本增效。如下图(右)所示,当模拟与真实数据配比达到5:1时,操作策略成功率从仅依赖真机数据的46.7%,大幅提升至93.3%。值得注意的是,这些模型泛化性仍然有提升空间,任务成功率也仍未达到100%,真实世界持续学习将在虚实贯通技术体系的“最后一公里”部署过程中,起到关键作用。

微信图片_20250126153243.jpg

导航和操作任务在不同数据配比下的性能曲线