机器人导航能力受限?大模型多模态技术提供创新解决方案

电子产品之家 2025-01-21 13:42:36

为了克服纯视觉导航存在的局限性,香港科技大学(广州)李昊昂教授团队研究出了视觉-语言导航技术?。该技术可帮助机器人整合视觉信息及语言指令,从而实现高效的人机交互。

在服务机器人的应用中,机器人可理解人类语言指令,并通过视觉数据识别关键信息,进而据此完成任务。例如,机器人可理解指令“走到客厅,把餐桌上的苹果拿给我”,并识别“客厅”、“餐桌”、“苹果”等关键信息来完成任务。研究成果取得了行业领先的性能,可为机器人提供更加自然、智能、高效的导航与交互能力。

在信息保障方面,受制于有限的数据质量和训练场景,现有的视觉-语言大模型存在对照片拍摄视角敏感、难以理解模糊语言指令等问题。针对该问题,李昊昂教授团队提出面向视觉-语言导航应用的大模型调优策略。在机器人室内外导航数据上进行视觉数据抽取和语言指令标注,然后将模型在该数据上拟合。机器人可以根据提取的环境视觉特征和人类语言指令来决定其导航路径。

此外,在数据基础方面,现有的导航训练数据主要由人工在真实世界下获取,存在数据量不足、多样性低以及标注成本高等问题。李昊昂教授团队通过仿真数据合成的方式解决该问题,设计了新颖的生成式扩散模型,可合成大量、多样化、高质量的视觉数据和相关的语言描述,从而提高模型在处理复杂、未见场景时的鲁棒性。

0 阅读:2
电子产品之家

电子产品之家

感谢大家的关注