又有人出来吐槽 VLA 了,这次是英伟达杰出研究科学家 Jim Fan。他说,VLM 是高度优化的,旨在攀登视觉问答这类基准测试的高峰。这带来了两个问题:(1) VLM 中的大部分参数用于语言和知识,而非物理理解;(2) 视觉编码器被积极调整以*丢弃*低级细节,因为问答只需要高层次的理解。但对于灵巧操作来说,微小的细节至关重要。他认为,视频世界模型作为机器人策略的预训练目标似乎更为理想。

又有人出来吐槽 VLA 了,这次是英伟达杰出研究科学家 Jim Fan。他说,VLM 是高度优化的,旨在攀登视觉问答这类基准测试的高峰。这带来了两个问题:(1) VLM 中的大部分参数用于语言和知识,而非物理理解;(2) 视觉编码器被积极调整以*丢弃*低级细节,因为问答只需要高层次的理解。但对于灵巧操作来说,微小的细节至关重要。他认为,视频世界模型作为机器人策略的预训练目标似乎更为理想。

作者最新文章
热门分类
财经TOP
财经最新文章