能战胜行测图形推理题目吗？阿里推出QVQ-Max视觉推理模型

今日凌晨，阿里旗下的通义千问推出了一款视觉推理模型——QVQ-Max，Qwen团队称该模型具备理解图片与视频内容的能力，并且还能根据所提供的信息展开分析推理。

我们目前所用到的常见大模型虽然也能上传图片，但是只能识别图片里的文字，对画面图形则缺少概念，因此不能算作视觉推理模型，QVQ-Max则着重提升了这一点。

“例如，在一道几何题中，它可以根据题目附带的图形推导出答案；在一段视频里，它能根据画面内容推测出接下来可能发生的情节。”

不过光看千问团队的宣传好像也感觉不出来到底有多厉害，不如咱们直接来给它上上强度。

热点科技这里准备了几道公务员行测的图形推理模拟题，来看看QVQ-Max到底能不能给出正确答案。

首先我们在QWEN CHAT平台选择这一模型，将从网上收集到的题目图片上传，直接询问答案。不过需要注意的是，或许是由于该模型今天才上线，在上传题目图片时总是提示网络错误，稍后再试。大家可能需要耐心点多试几次。

第一题如图，QVQ-Max响应很快，但是想的好像有点多，思考了足足3500个汉字才给出答案D选项，但是回答错误，正确答案是B。

一题好像并不能证明实力，咱们又上传了新的一题，看看QVQ-Max能不能一雪前耻。不过这一题对于QVQ-Max来说好像有点困难，竟然思考了多达6000个汉字才给出答案，仍然是D选项，仍然是错误的，正确答案是B。

最后一次，再来一题。好在这次结果还算好，QVQ-Max给出了正确的答案B选项，但是思考时间实在太长，依然足足有6000个汉字，等待时间接近十分钟，如果QVQ-Max去考试，恐怕没做完题目就要收卷了。

看起来行测的图形推理题目对于QVQ-Max来说有点超纲，本想试着上传一段视频，测测QVQ-Max的视频能力，但是显示一直上传失败，只得作罢。有兴趣的朋友可以自行去测试一下QVQ-Max的其他能力噢。

根据Qwen团队的解释，QVQ-Max目前只是第一版，还有很多提升空间。希望Qwen团队加把劲，让QVQ-Max早日拿捏行测图形推理。

0 阅读：3