• 作者:Yuxing Long, Wenzhe Cai, Hongcheng Wang, Guanqi Zhan and Hao Dong

  • 单位:北京大学计算机科学系,北京大学-Agibot实验室,北京大学计算机科学系多媒体信息处理国家重点实验室,东南大学自动化学院,牛津大学

  • 原文链接:InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment (https://openreview.net/pdf?id=fCDOfpTCzZ)

  • 项目主页:https://sites.google.com/view/instructnav

  • 代码链接:https://github.com/LYX0501/InstructNav

主要贡献

  • 提出了动态链式导航(Dynamic Chain-of-Navigation, DCoN)的新规划范式,能够统一不同类型的导航指令,并在每个决策步骤中根据观察到的场景对象动态更新下一个导航动作和地标。

  • 为了将语言规划的DCoN转换为机器人可执行的轨迹,创建了多源价值图(Multi-sourced Value Maps),包括动作价值图、语义价值图、轨迹价值图和直觉价值图,这些价值图共同决定了下一个路径点和可执行的轨迹。

  • InstructNav是第一个能够在未探索环境中执行多种类型指令的通用指令导航系统,无需任何导航训练或预构建地图,实现了在R2R-CE任务上的首次零样本性能,并在Habitat ObjNav和需求驱动导航DDN上超越了现有的最先进方法。

  • 通过在模拟器和真实机器人上的广泛实验,证明了该方法在处理环境和指令变化时的鲁棒性,展示了其在多样化室内场景中的应用潜力。

研究背景

研究问题

论文主要解决的问题是如何在未知环境中实现智能体根据多样化语言指令进行导航,可以极大地扩展指令导航机器人的应用场景。

研究难点

该问题的研究难点包括:

  • 不同类型的导航任务需要不同的策略,而指令导航数据的稀缺性阻碍了训练具有多样化策略的指令导航模型。

  • 几乎所有的先前工作都仅限于执行一种类型的导航指令,无法适应其他类型。

相关工作

  1. 目标导航:专注于在未知环境中找到特定的物体,如SemExp、PixelNav、Habitat-Web等模型,它们在HM3D数据集上进行评估,但无法适应新的指令类型。

  2. 视觉语言导航:通过逐步指令引导智能体到达指定目的地,如CWP-CMA、Ego2Map-NaViT等模型,在R2R-CE数据集上进行测试,同样缺乏跨指令类型的适应性。

  3. 需求驱动导航:旨在满足人类需求,通过搜索场景中的相关物体来实现,如ZSON-demand、VTN-CLIP-demand等模型,在DDN数据集上进行评估,也存在同样的局限性。

与这些方法不同,InstructNav旨在利用大型模型的强大泛化能力,实现零样本学习,支持多种导航指令类型。

研究方法

论文提出了InstructNav,第一个能够在未知环境中执行不同类型指令的通用指令导航系统。

动态链式导航(DCoN)

为了统一不同类型的导航指令,论文提出了一种新的规划范式——动态链式导航(DCoN)。

DCoN模型化了导航中的关键元素,包括动作、地标及其因果关系。它本质上对应于大型语言模型(LLM)的思维链过程。

通过LLM,可以将导航指令转换为DCoN,而无需手动注释。更重要的是,DCoN不是一个静态的简单指令分解,而是一种随着新环境探索而更新的通用导航策略。

多源价值图

为了将语言规划的DCoN转换为智能体可操作的轨迹,创建了多源值图(Multi-sourced Value Maps),这些值图表示指令导航中的关键元素,包括动作、地标和历史轨迹。具体包括:

  • 动作值图(Action Value Map):根据下一个DCoN动作和地标进行赋值操作,赋予与动作相关的区域较高的值。

  • 语义值图(Semantic Value Map):通过深度和相机姿态将2D语义分割掩码提升到3D,计算每个可导航区域位置与地标位置之间的最小距离,赋予靠近地标的区域较高的值。

  • 轨迹值图(Trajectory Value Map):记录智能体的历史轨迹,计算每个可导航区域位置与历史位置之间的最小距离,赋予远离历史轨迹的区域较高的值。

  • 直觉值图(Intuition Value Map):将多模态大模型(MLM)预测的下一个导航区域投影到该图上,赋予可导航位置较高的值。

决策值图的合成

通过将所有四个值图相加,得到决策值图(decision-making value map),用于规划下一个航点。障碍物区域在决策值图上设置为零,以便进行避障。

然后,根据决策值图上的最高值点设置导航目标,并使用A∗算法规划智能体轨迹。

实验设计

数据集

在对象目标导航中,使用Habitat模拟器上的HM3D数据集,遵循Habitat ObjectNav挑战的设置。

在视觉语言导航中,使用Habitat模拟器上的R2R-CE数据集验证集。

在需求驱动导航中,使用AI2Thor和ProcThor模拟器上的DDN数据集,遵循其未见场景和指令设置。

评估指标

采用轨迹长度(TL)、导航误差(NE)、成功率(SR)、Oracle成功率(OSR)以及受路径长度加权的成功率(SPL)作为评估指标。

实现细节

使用GPT-4进行动态链式导航的规划,采用GPT-4V判断导航方向。

视觉提示中的RGB观测数量(N)设置为6。

在创建语义点云时,部署GLEE在一个RTX 4090 GPU上进行语义分割。

结果与分析

对象目标导航

在HM3D数据集上,InstructNav在成功率上优于所有零样本方法,并且与最佳训练的对象导航模型OVRL相当。

视觉语言导航

在R2R-CE数据集上,InstructNav是第一个在零样本情况下完成视觉语言导航任务的模型,并且在成功率上优于广泛的训练任务模型。

需求驱动导航

在DDN数据集上,InstructNav在所有基线上都有显著的提升。

消融研究

通过消融研究,验证了DCoN和多源值图在InstructNav中的有效性。

  • 去除DCoN会导致所有三个任务的成功率显著下降。

  • 去除任何一个值图都会削弱InstructNav在所有任务上的性能。

真实场景

实验在多种室内场景中进行,包括办公室、公寓、图书馆、画廊和教学楼。机器人配备了RGB-D摄像头和激光雷达,使用SLAM Toolbox进行自定位,并通过Navigation2进行导航。

实验结果表明,InstructNav能够在未探索的环境中遵循自然语言指令,展示了其在实际应用中的潜力和可靠性。

总结

论文开发了第一个在连续环境中无需任何导航训练或预建地图的通用指令导航系统InstructNav。

通过引入动态链式导航(DCoN)和多源值图,实现了语言规划的DCoN转换为智能体可操作的轨迹。

广泛的仿真和真实机器人实验展示了该方法的无训练性能和有效性。

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐