
今天中午12点20,马斯克旗下的大模型平台xAI进行技术直播,并发布了最新大模型——Grok3。
与第二代相比,Grok3使用的算力提升了310倍,性能提升了15倍,硬件基础相当的猛。
根据测试数据显示,Grok3在美国AIME数学竞赛、GPQA、代码编程方面,性能高于OpenAI的o1、o3mini以及DeepSeek的R1。

与其他大多数模型相比,Grok3属于含着金汤勺出生的大模型,直接使用了10万块H100进行了大规模训练,仅用了122天就完成了第一阶段的预训练,92天后再次将训练集群扩大相当有实力。

Grok3采用了深度学习和强化学习相结合的方法。通过深度学习,模型能够从大量数据中提取特征和模式。强化学习使Grok3能够在训练过程中不断调整自身的策略,以获得更高的奖励信号。在推理任务中,Grok3通过多次尝试和验证,不断优化自身的推理路径,从而找到最优解。
Grok3的深度搜索功能是其架构中的另一个重要模块,够快速检索和验证信息,为用户提供准确的答案。深度搜索模块的设计灵感来源于当前最先进的搜索引擎技术,但Grok3在此基础上进行了显著的改进和优化。

深度搜索模块能够模拟人类的搜索过程,不仅能够快速检索大量的信息,还能通过推理和验证确保信息的可靠性。在搜索过程中,Grok3会生成一个高级进度条,展示其思考和搜索的过程。搜索完成后,在界面右侧会显示查询模型的启动摘要,包括浏览了哪些网站、验证了哪些来源,并且通常会交叉验证不同的来源,以确保答案的准确性。
该功能极大地节省了用户的时间,原本需要花费大量时间在互联网上搜索和筛选信息的任务,Grok3能够在短时间内完成,其效率远超传统搜索引擎。
Grok3测试数据为了全面评估Grok3的性能,xAI团队在多个领域进行了基准测试,涵盖了一般数学推理、STEM和科学的一般知识以及计算机科学编程等方面。
测试结果显示,Grok3在各个领域的表现都很出色。在高中竞赛数学测试中,Grok3展现出了强大的解题能力;在博士级科学问题的解答上,也能够给出高质量的答案;在编程测试中,无论是竞争性编码还是面试问题,都非常出色。

除了基准测试,xAI 还对 Grok3 进行了盲测。该平台剥离了产品服务,仅对语言模型的引擎进行原始比较。用户在该平台上提交单一查询,会得到两个不同模型的响应,但无法知道这些响应来自哪个模型。
在这次盲测中,Grok3 的早期版本取得了令人瞩目的成绩,综合得分达到了 1400 分,在所有类别中均排名第一,且分数还在不断上升。这证明 Grok3 在实际应用中的强大性能,它能够在复杂的测试环境中脱颖而出,为用户提供高质量的答案。
Grok3应用案例一个案例是要求Grok3现场创造一个融合《俄罗斯方块》和《宝石迷阵》的新游戏。Grok3生成的Python脚本定义了游戏中的常量、颜色、方块形状等元素。

在实际运行中,游戏呈现出了独特的玩法:当连接至少三个相同颜色的方块时,重力机制启动,方块消失,其他方块随之掉落,类似《宝石迷阵》的消除机制;同时,游戏也保留了《俄罗斯方块》的基本元素,但具体的行消除机制可能存在多种变体,这也为AI开发游戏奠定了基础。

在解决从地球到火星再返回地球的轨迹规划这一复杂物理问题时,Grok3展现出了强大的推理和编程能力。团队向Grok3提出生成一个动画3D图,展示从地球发射,降落在火星,然后在下一个发射窗口返回地球的过程的要求。

Grok3迅速给出了使用matplotlib的Python脚本代码。从代码逻辑来看,似乎在通过数值方法解决开普勒定律相关问题,以实现合理的轨迹规划。虽然实际轨道存在诸多复杂因素,但运行代码后生成的动画显示,航天器能够在地球和火星之间顺利往返,与实际情况非常接近。
说下本次观看直播的体验,「AIGC开放社区」曾在去年12月,连续参加了OpenAI举办的12场技术直播,在技术解读、产品介绍、直播宣传以及整个直播节奏方面,xAI距OpenAI还有很长的距离要走。单靠马斯克这一块金字招牌,还是太吃力了。
关于马斯克的xAIxAI成立于2023年7月,是一家专注于大模型开发的AI公司。其核心团队成员来自OpenAI、谷歌DeepMind、微软研究院和特斯拉等知名企业。xAI的主打产品是类ChatGPT的大模型Grok系列,其中Grok-1于2024年3月17日正式开源,拥有3140亿参数,采用混合专家架构,能够生成文本、代码等内容,支持商业化用途。
2024年5月,xAI宣布获得60亿美元B轮融资,估值240亿美元。主要投资者包括ValorEquityPartners、红杉资本、国王控股、沙特王子-BinTalal和VyCapital等。
2024年7月,马斯克宣布在孟菲斯搭建了一个由10万块液冷H100GPU组成的全球最强AI训练集群,用于训练下一代Grok模型。
2024年12月,xAI再次获得60亿美元融资,估值超过500亿美元。此时,其融资总额达到120亿美元,成为当年大模型赛道融资最高企业。

根据彭博社最新的消息,马斯克的xAI正以750亿美元估值,进行新一轮100亿美元融资。