AndrejKarpathy,OpenAI创始成员之一,特斯拉AI/A

怒喵李楠 2025-12-20 22:15:01

Andrej Karpathy,OpenAI 创始成员之一,特斯拉 AI / Autopilot 负责人 总结了 2025 年 LLM 的主要趋势。xxxxxxxx2025年LLM年度回顾2025年12月20日2025年是LLM领域进步显著且充满事件的一年。以下是我个人认为值得关注且略感意外的“范式转变”——那些改变了格局并在概念上让我印象深刻的事情。1. 来自可验证奖励的强化学习 (RLVR)在2025年初,所有实验室的LLM生产堆栈看起来大致如下:预训练(~2020年的GPT-2/3)监督微调(~2022年的InstructGPT)以及来自人类反馈的强化学习(~2022年的RLHF)这曾经是训练生产级LLM的稳定且经过验证的配方。在2025年,来自可验证奖励的强化学习 (RLVR) 成为添加到该组合中的事实上的新主要阶段。通过在许多环境中针对自动可验证的奖励训练LLM(例如,思考数学/代码难题),LLM自发地发展出看起来像是人类“推理”的策略——它们学会将问题解决分解为中间计算,并且学会了一系列来回尝试以解决问题的策略(参见DeepSeek R1论文中的示例)。这些策略在以前的范式中很难实现,因为不清楚对于LLM来说,最佳的推理轨迹和恢复是什么样的——它必须通过针对奖励的优化来找到对它有效的方法。与SFT和RLHF阶段相比,两者都是相对薄弱/短暂的阶段(计算量较小的微调),RLVR涉及针对客观(不可作弊)的奖励函数进行训练,这允许更长时间的优化。运行RLVR最终提供了很高的能力/成本比,这消耗了最初计划用于预训练的计算资源。因此,2025年的大部分能力进展都体现在LLM实验室消化这个新阶段的剩余计算资源上,总的来说,我们看到了大致相同大小的LLM,但RL运行时间更长。同样独特的是,在这个新阶段,我们获得了一个全新的旋钮(以及相关的比例定律),可以通过生成更长的推理轨迹并增加“思考时间”来控制作为测试时间计算函数的能力。OpenAI o1(2024年末)是RLVR模型的第一个演示,但o3版本(2025年初)是明显的拐点,你可以直观地感受到其中的差异。2. 幽灵 vs. 动物 / 锯齿状智能2025年是我(以及我认为整个行业也是如此)第一次开始以更直观的方式内化LLM智能的“形状”。我们不是在“进化/生长动物”,我们是在“召唤幽灵”。LLM堆栈的一切都不同(神经架构、训练数据、训练算法,尤其是优化压力),因此我们得到的是智能领域中非常不同的实体,并且通过动物的视角思考它们是不合适的,这不应该令人惊讶。在监督的意义上,人类神经网络针对部落在丛林中的生存进行了优化,但LLM神经网络针对模仿人类文本、在数学难题中收集奖励以及在LM Arena上获得人类的点赞进行了优化。由于可验证领域允许RLVR,LLM在这些领域附近的能力“飙升”,并且总体上表现出有趣的锯齿状性能特征——它们同时是天才博学者和困惑且认知能力受挑战的小学生,随时可能被越狱诱骗来泄露你的数据。(人类智能:蓝色,人工智能:红色。我喜欢这张梗图的版本(我很抱歉我找不到它在X上的原始帖子的参考),因为它指出人类智能本身也以其自身不同的方式呈锯齿状。)与这一切相关的是我在2025年对基准测试的普遍冷漠和信任丧失。核心问题是基准测试几乎是人为构建的可验证环境,因此立即容易受到RLVR的影响,以及通过合成数据生成进行的较弱形式的影响。在典型的基准测试过程中,LLM实验室的团队不可避免地构建与基准测试所占据的嵌入空间的小口袋相邻的环境,并生长出覆盖它们的锯齿。在测试集上训练是一种新的艺术形式。粉碎所有基准测试但仍然无法实现AGI会是什么样子?我在这里写了更多关于本节主题的内容:动物 vs. 幽灵可验证性心智空间3. Cursor / LLM应用的新层我对Cursor最值得注意的地方(除了它今年飞速发展之外)是它令人信服地揭示了“LLM应用”的新层——人们开始谈论“针对X的Cursor”。正如我在今年的Y Combinator演讲(文字稿和视频)中强调的那样,像Cursor这样的LLM应用捆绑并协调针对特定垂直领域的LLM调用:他们进行“上下文工程”他们协调底层多个LLM调用,串联成越来越复杂的DAG,仔细平衡性能和成本的权衡。他们为循环中的人提供特定于应用程序的GUI他们提供一个“自主滑块”2025年,人们花费了大量时间讨论这个新的应用程序层有多“厚”。LLM实验室会捕获所有应用程序,还是LLM应用程序存在绿色牧场?我个人怀疑LLM实验室将倾向于培养出能力全面的大学生,但LLM应用程序将通过提供私有数据、传感器和执行器以及反馈循环来组织、微调并实际激活他们组成的团队,使他们成为特定垂直领域的部署专业人员。4. Claude Code / 住在你电脑上的AIClaude Code (CC) 成为LLM Agent样子的第一个令人信服的演示——它以循环的方式将工具使用和推理串联起来,以进行扩展的问题解决。此外,CC在我看来值得注意的是,它在你的计算机上以及你的私有环境、数据和上下文中运行。我认为OpenAI在这方面做错了,因为他们早期的codex / agent工作重点放在ChatGPT协调的容器中的云部署上,而不是简单的localhost上。虽然在云中运行的代理集群感觉像是“AGI的终局”,但我们生活在一个中间且足够缓慢的起飞世界中,其中参差不齐的功能更有意义,可以直接在开发人员的计算机上运行代理。请注意,最重要的区别不是“AI ops”碰巧在哪里运行(在云中、本地或任何地方),而是关于其他一切——已经存在并启动的计算机、它的安装、上下文、数据、秘密、配置和低延迟交互。Anthropic正确地理解了这种优先顺序,并将CC打包成一个令人愉悦的、极简的CLI外形,改变了AI的样子——它不仅仅是你访问的网站,比如Google,它是一个“居住”在你计算机上的小精灵/幽灵。这是一种与AI交互的新的、独特的范式。5. 氛围编码2025年是AI跨越了必要的能力阈值的一年,只需通过英语即可构建各种令人印象深刻的程序,而忘记了代码的存在。有趣的是,我在这个思绪泉涌的推文中创造了“氛围编码”一词,完全没有意识到它会走多远:)。通过氛围编码,编程不再严格地保留给训练有素的专业人员,而是任何人都可以做的事情。在这个意义上,这是我写在《权力归于人民:LLM如何颠覆技术传播》中的另一个例子,说明了(与迄今为止的所有其他技术形成鲜明对比)普通人从LLM中获得的收益远远超过专业人士、公司和政府。但是,氛围编码不仅使普通人能够接触编程,而且还使训练有素的专业人员能够编写更多(氛围编码的)原本永远不会编写的软件。在nanochat中,我氛围编码了我自己的定制高效的Rust BPE分词器,而不必采用现有的库或以该级别学习Rust。今年我氛围编码了许多项目,作为我想存在的快速应用程序演示(例如,参见menugen、llm-council、reader3、HN时间胶囊)。而且我氛围编码了整个短暂的应用程序,只是为了找到一个bug,因为为什么不呢——代码突然是免费的、短暂的、可塑的、单次使用后可丢弃的。氛围编码将改造软件并改变职位描述。6. Nano banana / LLM GUIGoogle Gemini Nano banana是2025年最令人难以置信、范式转变的模型之一。在我的世界观中,LLM是下一个主要的计算范式,类似于1970年代、80年代等的计算机。因此,我们将看到类似类型的创新,原因也基本相似。我们将看到个人计算、微控制器(认知核心)、互联网(代理互联网)等的等价物等等。特别是,在UIUX方面,与LLM“聊天”有点像在1980年代向计算机控制台发出命令。文本是计算机(和LLM)的原始/首选数据表示形式,但它不是人们的首选格式,尤其是在输入方面。人们实际上不喜欢阅读文本——它既缓慢又费力。相反,人们喜欢以视觉和空间的方式消费信息,这就是传统计算中发明GUI的原因。同样,LLM应该以我们喜欢的格式与我们对话——以图像、信息图表、幻灯片、白板、动画/视频、Web应用程序等形式。当然,这方面早期和现在的版本是表情符号和Markdown之类的东西,它们是以视觉方式“修饰”和布局文本以方便消费的方式,带有标题、粗体、斜体、列表、表格等。但是,谁实际上会构建LLM GUI?在这个世界观中,nano banana是可能看起来像什么的第一批早期暗示。重要的是,其中一个值得注意的方面是它不仅仅是关于图像生成本身,而是关于来自文本生成、图像生成和世界知识的联合能力,所有这些都纠缠在模型权重中。总结:2025年是LLM领域激动人心且略感意外的一年。LLM正在成为一种新型的智能,同时比我预期的要聪明得多,也比我预期的要愚蠢得多。无论如何,它们非常有用,我认为即使以目前的能力,该行业也远未意识到其潜力的10%。与此同时,有太多的想法可以尝试,并且从概念上讲,该领域感觉非常开放。正如我今年早些时候在我的Dwarkesh播客中所提到的,我同时(并且表面上自相矛盾地)相信,我们将看到快速且持续的进步,并且还有很多工作要做。系好安全带。

0 阅读:0
怒喵李楠

怒喵李楠

感谢大家的关注