世良情感网

MathArena用最新的美国数学奥林匹克来考验大模型,结果还是比较惨淡。所有模

MathArena用最新的美国数学奥林匹克来考验大模型,结果还是比较惨淡。

所有模型的得分都不到 5% 。Deepseek-R1 相对最好。

ai创造营 ​​​