揭开OpenAI草莓模型神秘面纱——重塑大语言模型的逻辑能力

人工智能电子侃 2024-09-26 17:50:45

OpenAI即将发布“草莓”模型 来源:medium来源:智源社区

编辑:李梦佳

据报道,OpenAI计划在未来两周内发布其新的AI模型Strawberry(草莓)。据 Seeking Alpha周二(9 月 10 日)援引The Information 的一篇付费文章报道,新模型可以解决从未遇到过的数学问题,并且可以在回答之前「思考」问题。

让模型具备「思考」能力一直是一个潜在的瓶颈,据悉草莓模型的诞生是为了应对现有人工智能技术的局限性,并推动大语言模型的理解力和问题解决能力迈上新的台阶。那么在豪言壮志之外,草莓模型究竟运用了哪些核心技术?有可能会展现出哪些前所未有的能力?

本文对草莓模型的来龙去脉和技术内核进行了梳理,以飨读者。

草莓模型的项目背景源于OpenAI对现有大语言模型不足之处的深刻认识。在过去,尽管大语言模型在许多场景中表现出色,但在处理复杂且具有挑战性的问题时,效果却往往不尽人意。为了突破这一瓶颈,OpenAI决定开发一款新模型,以提升人工智能的自我训练和进化能力,使其能够应对前所未见的问题,并不断提升自身的智能水平。这一切始于几年前,OpenAI的一群顶尖科学家和工程师们聚在一起,探讨如何让大语言模型在复杂任务中的表现更上一层楼。经过无数次的讨论和实验,他们意识到仅靠传统的大数据训练无法解决所有问题。于是,草莓项目应运而生。按照十几位人工智能研究人员的说法,草莓项目的目标是实现目前大语言模型尚未具备的功能。这也是为什么OpenAI在现阶段并不打算公开关于「草莓」的详细资料的原因之一。当被问及「草莓」的细节时,OpenAI的一位发言人只是绕了个弯表示:“我们希望AI大模型能像人类那样看待和理解这个世界。不断研究新的AI能力是业界的普遍做法,毕竟我们都相信AI的推理能力会随着时间的推移而不断提高。”

尽管如此,草莓项目的工作原理在OpenAI内部依然是严格保密的,外界对于草莓模型的具体发布时间也仍然一无所知。然而,这份神秘感反而增加了人们对Orion和草莓项目的期待。不过目前普遍的共识认为,草莓模型的核心技术之一是自学推理器(STaR)技术,这使得该项目具备了独特的自我训练和进化能力。通过这种技术,草莓项目不仅仅是为了提高人工智能的性能,更是为了让人工智能在各个领域展现出更强大和独特的能力,从而推动整个人工智能领域迈向新的境界。

缓解「幻觉」的两条路径:外部检索和内部增强

现有的大语言模型(如GPT-4)是通过大量文本数据训练而成的,能够生成高度逼真的自然语言文本。然而,这些模型有时会产生一种被称为「幻觉」的现象,即生成的内容虽然语法正确、逻辑连贯,但实际上是不准确或完全虚构的。幻觉的产生源于模型的工作原理:大语言模型通过预测下一个词来生成文本,而不是基于对事实的理解或知识的验证。

因此,它们可能会在缺乏足够背景信息或训练数据的情况下,生成看似合理但实际上错误的信息。幻觉不仅限于事实错误,还可能包括虚构的引文、错误的历史事件或不正确的科学数据。这种现象在实际应用中可能带来风险,例如在医学、法律或新闻领域,错误的信息可能导致严重的后果。因此,理解和识别大语言模型的幻觉现象,并采取措施加以预防和纠正,是确保这些模型安全有效使用的重要方面。

图2:大语言模型幻觉示例

近年来,各大公司和研究机构都在缓解大语言模型幻觉方面做出了很多的努力,主要包含两条研究主线:即从增强外部检索能力和内部推理能力两个角度入手。具体来说,许多以外部搜索能力赋能大模型的公司均本身具有较强的搜索引擎研究和应用基础。

例如微软将Bing搜索引擎与OpenAI的语言模型集成,使其能够实时访问互联网信息,这种集成允许模型在回答问题之前进行实时搜索,从而确保生成的信息是最新和准确的。这减少了模型产生幻觉的风险,特别是在涉及最新事件或需要精确数据的情况下。谷歌则是通过实时访问Google搜索的数据,使其大语言模型能够在生成回答之前进行搜索验证。而Amazon在其Alexa语音助手中集成了广泛的知识库和文档,使其能够在生成回答时进行参考和验证。这种集成使Alexa在回答用户问题时能够基于权威数据源,减少因信息不准确而产生的幻觉。

外部的检索功能只能补齐大语言模型知识上的缺失,但大语言模型是否能使用好这些知识,甚至完成一些复杂的推理,这取决于大模型的内部能力。现在的大模型之所以经常出现「幻觉」,正是因为它就好像一个读过了很多本书,但智力不到10岁的孩子,因此增强大语言模型本身的逻辑能力、推理能力,是让大模型真正能够帮助我们解决更多问题,让我们能够在各类工作生活中把任务交给大模型的重要途径。ChatGPT的横空出世,正是因为OpenAI使用强化学习与人类反馈(RLHF)来训练其模型,包括在回答中加入人类的反馈意见。

通过这种方法,模型能够不断改进其生成内容的准确性和逻辑性,减少幻觉现象。在此之前,Google在其语言模型中引入多任务学习和逻辑推理训练,训练模型处理多种任务,如问答、翻译和摘要。这种方法使模型能够更好地理解和处理复杂的逻辑关系和因果关系,从而减少幻觉的产生。例如,Google的BERT和T5模型在多任务训练中表现出更强的推理能力。IBM Watson在医疗、法律等专业领域中,结合领域知识库和专家系统,进行专门的推理训练。通过这种方法,Watson能够在生成回答时基于专业知识进行推理和验证,减少幻觉现象。例如,在医疗领域,Watson会参考大量的医学文献和案例,确保诊断建议的准确性。

然而,当前大语言模型的逻辑能力和推理能力仍然远远无法满足实际应用的要求,以至于大语言模型只能作为大家工作的一种简单的辅助方式,作为一种参考,而无法直接代替人类进行工作。例如,在法律领域,律师需要仔细分析案件,运用法律条款和过去的判例进行复杂的推理和辩论。这些任务需要高度的专业知识和逻辑推理能力,而大语言模型目前还无法胜任此类工作。

此外,在医学领域,医生需要根据病人的症状、病史以及各种诊断结果,综合判断病情并制定治疗方案。这不仅需要深厚的医学知识,还需要敏锐的洞察力和丰富的临床经验。目前的大语言模型只能提供一些基础的医学信息和建议,无法替代医生做出关键的临床决策。在科研领域,科学家们需要设计实验、分析数据、提出假设并进行推理,所有这些都需要高度的创造力和逻辑思维能力。大语言模型可以帮助查找文献、提供信息,但在真正的科研过程中,它们的作用还是非常有限的。

因此在这个领域的从业者来说,仍然有很长的路要走。而草莓模型正是在这样的背景下应运而生,它大幅度提升了模型的逻辑推理能力。与传统的人工智能模型相比,草莓模型不仅能够更准确地理解复杂的问题,还可以通过自身的学习和进化,不断优化其解决问题的策略。接下来我们就来聊聊草莓模型是如何实现逻辑能力的跃升的。

Quiet-STaR:草莓模型提升逻辑推理能力的钥匙

尽管OpenAI从未正式公开过草莓模型的技术细节,但普遍认为该模型的开发主要依赖于斯坦福大学提出的一种自学推理方法(Self-Taught Reasoner,简称STaR)。最近,斯坦福团队在STaR的基础上又提出了一种新的推理方式,名为Quiet-STaR(安静的自学推理者)。这个名称准确地反映了这项技术的核心思想:使AI能够在不显式表达的情况下进行自主推理。

Quiet-STaR的运行分为三个主要步骤:

1.并行生成推理:在输入序列中,并行处理所有的输入token,从而生成多个推理候选。插入学习到的<|startofthought|>和<|endofthought|>token来token每个推理的开始和结束。

2.基础和推理后预测相结合:从每个推理后的隐藏状态输出中,训练一个“混合头”——一个浅层的多层感知器,产生一个权重来决定推理后下一个token预测的逻辑值在多大程度上应该被纳入与基础语言模型预测的逻辑值相比。由于引入了推理,这种方法减轻了微调早期的分布偏移。

3.优化推理生成:优化推理生成参数(开始/结束token和语言模型权重),以增加使未来文本更可能的推理的概率,使用REINFORCE算法为推理提供学习信号,基于其对未来token预测的影响来调整推理。为了减少方差,应用教师强制技巧,将预测不仅是思考后的token而且是后续token的概率包含在损失中。

图3:Quiet-STaR工作流程

具体来说,并行生成推理过程如下:在Quiet-STaR中,一个关键挑战是如何在输入序列的每个token位置高效地生成推理。简单地说,这需要对每个token进行单独的前向传递,这对于长序列来说在计算

0 阅读:0
人工智能电子侃

人工智能电子侃

感谢大家的关注