又有人出来吐槽VLA了,这次是英伟达杰出研究科学家JimFan。他说,V

三金笑说商业 2025-12-29 18:43:54

又有人出来吐槽 VLA 了,这次是英伟达杰出研究科学家 Jim Fan。他说,VLM 是高度优化的,旨在攀登视觉问答这类基准测试的高峰。这带来了两个问题:(1) VLM 中的大部分参数用于语言和知识,而非物理理解;(2) 视觉编码器被积极调整以*丢弃*低级细节,因为问答只需要高层次的理解。但对于灵巧操作来说,微小的细节至关重要。他认为,视频世界模型作为机器人策略的预训练目标似乎更为理想。

0 阅读:0
三金笑说商业

三金笑说商业

感谢大家的关注