近日,由浙江人形机器人创新中心联合香港中文大学、浙江大学等多家高校与科研机构共同完成的机器人空间智能研究“Aretrieval-augmentedframeworkenablingVLMspatialawarenessforobject-centricrobotmanipulation”发表于国际顶级机器人学术期刊《ScienceRobotics》 。该研究提出名为RAM(Retrieval-AugmentedManipulation)的三维空间理解与操作模型,为提升机器人在复杂长程任务中的操作可靠性提供了新的技术路径。
技术背景:大模型时代 ,机器人的空间智能难题
以视觉语言大模型(VLM)为代表的AI技术正在提升机器人理解自然语言指令和分解复杂任务的能力。但从“听懂指令”到“完成动作”之间,仍存在关键鸿沟:机器人需要在三维空间中理解物体的位置、朝向 、尺度、可操作区域及相互关系,并将这些信息转化为可执行的运动约束 。
现有大模型多依赖二维图文数据训练,缺乏直接的物理世界经验 ,在推理物体位姿和空间关系时容易产生不符合物理规律的判断。如何让模型获得可验证、可迁移的三维空间知识,并将高层语义规划与底层物理执行连接起来,是具身智能和机器人操作领域的重要问题。
研究成果:RAM框架 ,用“知识检索 ”让机器人读懂三维世界
针对这一挑战,RAM借鉴检索增强生成(RAG)的思想,为大模型配备可查询的外部三维知识库 。机器人执行任务时 ,模型可以按需检索物体类别 、几何属性、功能平面、抓取点等空间先验信息,从而弥补视觉语言模型自身三维空间理解不足的问题。与将知识隐含在模型参数中不同,RAM的空间知识更加显式、可解释 ,也便于扩展。
RAM框架整体流程示意图
RAM由三个模块组成。首先是物体类别级知识引擎,研究团队为每类物体建立标准化三维模板,并标注姿态 、尺寸、对称性、抓取点和功能平面等信息 。实验显示 ,这类模板可迁移到不同形状 、尺寸和纹理外观的同类物体实例上,减少对每个具体物体逐一建模和标注的依赖。
第二个模块是三维视觉接地模型,负责把知识库中的标准化先验迁移到真实场景中的具体物体上。该模型基于视觉基础模型DINO构建,结合二维图像特征与三维点云信息 ,建立观测物体与模板之间的对应关系,从而获得物体姿态、抓取方式和功能平面等信息 。该模块主要基于合成数据训练,并在真实场景实验中展现出对多种未见物体实例的泛化能力。
三维空间知识向真实场景物体的迁移示例
面向铰接物体的三维空间知识迁移示例
第三个模块是检索增强任务规划器。它将接地后的空间信息以结构化文本形式注入大模型上下文 ,使大模型在分解复杂指令时能够生成带有明确空间约束的操作步骤 。例如,对于“把碗放在盘子上”,系统会将“底面与顶面平行对齐”“中心点在水平方向对齐 ”等约束纳入规划 ,再转化为机器人的运动轨迹。
实机验证:从指令执行到自主决策,检验空间智能
为检验RAM的空间智能水平,研究团队在真实机器人平台上设计了三个层次递进的系统实验 ,涵盖14项空间操作任务、31个物体实例和11个物体类别。
第一类实验面向语言指令驱动的空间操作,包括单物体单步 、多物体单步和多物体多步任务,测试机器人对位置、朝向、空间关系和长程规划的理解能力 。在总计120次重复测试中 ,RAM取得89.17%的平均成功率。
空间语言指令驱动的机器人操作结果评估
第二类实验面向图像引导的空间操作。以看图摆放餐具为例,机器人需要从二维参考图中推理物体的三维相对位置和朝向,并映射到当前工作空间中顺序执行 。在多种参考图和随机初始位置测试中,RAM取得92.00%的平均成功率。
图像引导的机器人操作任务示例
第三类实验面向基于空间推理的自主决策。研究团队通过改变台面高度和物品尺寸构造约束场景 ,检验系统能否根据物理条件选择合适策略。当直接操作受限时,RAM能规划借助中间工具的间接操作方案,体现了其对空间约束的自适应规划能力 。
基于空间约束的自适应任务决策
此外 ,团队构建了面向机器人操作场景的空间理解问答评测集,从相对位置 、旋转方向、操作可行性、任务规划和尺寸估计等维度评估模型的空间认知能力。结果显示,在该评测集覆盖的多类空间推理任务中 ,RAM整体表现优于多种代表性视觉语言大模型。
机器人空间理解问答评测
除核心任务外,RAM还展现出一定通用性与扩展性 。在模型层面,它可适配GPT 、Claude和Qwen-VL等主流大模型;在操作对象上 ,从刚体扩展到铰接物体和可变形物体;在硬件平台方面,也已在包括配备五指灵巧手的人形机器人等多个平台上完成验证。
算法赋能平台,为人形机器人注入空间智能
人形机器人要走向真实应用场景 ,不仅需要硬件本体、灵巧手和运动控制能力,也需要理解三维环境、判断物理约束并规划可执行动作的算法能力。RAM所展示的空间智能路径,与浙江人形机器人创新中心长期关注的人形机器人平台建设、灵巧操作和具身智能方向高度相关 。
目前,中心围绕关节模组 、执行器、整机系统、五指灵巧手和运动控制系统等方向开展研发 ,同时在视觉感知 、三维重建、运动规划、轨迹优化和大模型驱动的具身智能算法方面持续布局,为前沿算法的部署 、测试和工程验证提供平台基础。
产业布局:从前沿技术到多元场景落地
空间智能技术的研究也为人形机器人未来走向复杂应用场景提供了支撑。围绕平台建设与场景需求,浙江人形机器人创新中心正持续关注三维感知、任务规划、灵巧操作和具身智能等关键能力的融合发展 ,推动相关技术在工业制造 、家庭服务、智能康养等场景中的探索验证与逐步落地 。
面向智能康养等更具挑战性的场景,机器人需要在与人近距离交互的环境下完成物品递送、生活辅助等任务,对空间感知准确性与操作安全性提出更高要求。中心已在深圳成立迩伴智能机器人有限公司 ,聚焦面向养老康养场景的人形机器人产品与解决方案研发。
未来,浙江人形机器人创新中心将继续推动前沿研究与工程实践之间的衔接,围绕机器人空间认知 、长程任务规划和自主决策等方向开展探索 ,助力人形机器人在更复杂、更真实的环境中实现可靠操作与智能协作 。
(
发表评论
暂时没有评论,来抢沙发吧~