机器人导航能力受限？大模型多模态技术提供创新解决方案

电子产品之家 2025-01-21 13:42:36

为了克服纯视觉导航存在的局限性，香港科技大学（广州）李昊昂教授团队研究出了视觉-语言导航技术?。该技术可帮助机器人整合视觉信息及语言指令，从而实现高效的人机交互。

在服务机器人的应用中，机器人可理解人类语言指令，并通过视觉数据识别关键信息，进而据此完成任务。例如，机器人可理解指令“走到客厅，把餐桌上的苹果拿给我”，并识别“客厅”、“餐桌”、“苹果”等关键信息来完成任务。研究成果取得了行业领先的性能，可为机器人提供更加自然、智能、高效的导航与交互能力。

在信息保障方面，受制于有限的数据质量和训练场景，现有的视觉-语言大模型存在对照片拍摄视角敏感、难以理解模糊语言指令等问题。针对该问题，李昊昂教授团队提出面向视觉-语言导航应用的大模型调优策略。在机器人室内外导航数据上进行视觉数据抽取和语言指令标注，然后将模型在该数据上拟合。机器人可以根据提取的环境视觉特征和人类语言指令来决定其导航路径。

此外，在数据基础方面，现有的导航训练数据主要由人工在真实世界下获取，存在数据量不足、多样性低以及标注成本高等问题。李昊昂教授团队通过仿真数据合成的方式解决该问题，设计了新颖的生成式扩散模型，可合成大量、多样化、高质量的视觉数据和相关的语言描述，从而提高模型在处理复杂、未见场景时的鲁棒性。

0 阅读：2

电子产品之家

感谢大家的关注

作者最新文章

1

华为智慧屏V5Max110发布华为黑钻屏成就超凡画质

2

HUAWEISoundJoy2音箱发布！澎湃音质定价999元

3

华为WatchGT5系列正式发布吴磊同款华为手表快来get！

4

RedmiNote14Pro+首发第三代骁龙7s：26日发布

5

国庆假期地面持久洁净的秘密，石头P20Pro热销中

6

外媒称iPhone16是最容易维修的iPhone：相机键除外

7

吴磊成为华为运动健康全球代言人新款手表亮相倒计时

8

能上旗舰的游戏主板之选技嘉B760M雕妹2.0游戏实测

9

iPhone16Pro触控失灵窄边框防误触太敏感

10

千万别买错！华为WatchGT5手表表带不通用！

科技TOP

1

美拆解大疆无人机后,发现80%芯片非国产,60亿罚款成定局?

2

手机国补1月20日上线,叠加商家优惠补上加补,华为受益大于苹果

3

三星没有料到,高通正式表态外媒:3nm芯片开始说再见了

4

中端市场的“卷王”,骁龙8Gen3+2K屏+6550mAh,如今售价一跌再跌

5

手机信号最强品牌揭晓,这三款机型覆盖范围最广,信号稳定不掉线

6

两万件专利一夜归零?任正非也没料到,外媒:美把事情闹大了

7

荣耀不要利润了?5800mAh+1亿像素+256GB,如今低至1104元起

8

1869元,刚官宣这直屏手机,绝对是来捣乱的

9

万年8GB内存时代终结!三星GalaxyS25系列全系标配12GB

10

赵明突然离职,荣耀CEO换人!离职原因有两点!

科技最新文章

1

荣耀果断“发飙”,骁龙8至尊版+5650mAh+4320mAh,跌价720元

2

华为nova14系列曝光:麒麟9010加持,中端市场的新王者?

3

7050mAh+骁龙8至尊版,续航给力性能强劲,一步到位用六年

4

骁龙8Gen3+6100mAh大电池,旗舰配置卖成千元机价,性价比无敌!

5

工信部:必须使用C口。库克:不可能,苹果14照样用Lightning口

6

余承东称将引发全国人民抢购!华为重磅新品3月发布:或是全新折叠产品

7

美国刚准备将荣耀纳入制裁名单,随后荣耀就发了张意味深长的照片

8

我问了deepseek“活着的意义就是追求快乐”,它的答案震惊到了我

9

全世界都在过中国年,外国人被春晚机器人扭秧歌震撼到了

10

千元手机性价比之王诞生,搭载骁龙8Gen3处理器,还有超声波指纹

热门分类

军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球健康房产家居星座旅游健身时尚科学探索职场育儿股票教育影视情感热点推荐热榜中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期青骄第二课堂少年风超级父母麻辣老师街拍恋爱攻略婚姻情趣正能量