大模型基本概念入门必备

薪科技快评 2025-01-10 13:20:54

大模型入门基础-基本概念介绍

1.背景介绍

1.1 奇点到来:ChatGPT引爆AIGC

2022年末,ChatGPT横空出世,引爆全球热潮。这款自然语言处理(NLP)巨擘在意图识别与内容生成方面展现出卓越性能,令人叹为观止。

2023年初,GPT-4升级版震撼登场,支持多模态能力,如图像和语音。在多项考试中,其得分已超越大多数人类。

2016年,AlphaGo在围棋领域战胜人类棋王,成为AI专业领域战胜人类的起点。如今,ChatGPT等大模型的发布,预示着生成式人工智能(AIGC)泛化能力更强、通用任务处理更出色的奇点即将到来。

1.2 全球热潮:全球AI市场预计将于2030年达到1万亿美元

2024 年全球人工智能 50 强

AI对各类工作的影响

1.3 AGI看到希望1.4 高估的短期与低估的长期

2024年大众对AI的看法 : 这是啥->好像也没那么厉害->和我没太大关系

近期,AGI并未迅速催生大量明星APP和变现机器。事实上,只有少数应用如ChatGPT和Charactor.ai实现了用户突破。众多上层应用APP如同短暂的韭菜一般,不仅迅速被OpenAI官方取代,而且难以实现成本平衡。因此,投资者谨慎行事,公众对AI的兴趣也在逐渐减弱。长期来看,技术的稳定性和加速更新是大势所趋。自2023年3月以来,预测的技术如视频生成、音频生成、代理Agent、记忆能力、模型小型化等都取得了显著进步。尽管距离商业化仍存在诸多挑战,但突破这些问题只是时间问题。

"今日人间,AI已砥砺十载。技术进步如潮,大模型破浪前行,乃我们身处时代最显著之变革。AGI尚有数年可期,无硬性障碍阻挡其来。各位同事,让我们满怀热情,投身其中。"

1.5 为什么大语言模型开启了迈向通用人工智能之路?

认知智能,人工智能的终极境界,标志着人机互动的新篇章。无论算法多么强大,若无法理解人类、与人类沟通无阻,终究难以融入人类社会和商业领域。人机同频交流,正是衡量人工智能优劣的关键标准。

在“人机同频交流”的大目标下,自然语言处理这一领域的关键性不言而喻。人类90%的信息获取与交流都依赖于语言,人类所有的逻辑、情感、知识、智慧、甚至社会的构建、文明的传承依赖于对语言的理解和表达。

因此,计算机想要具备“看人类所看,想人类所想,与人类同频”的能力,就必须理解人类所使用的自然语言,而自然语言处理(Natural Langurage Process)正是研究如何让计算机认知人类语言、理解人类语言、生成人类语言、甚至依赖这些语言与人进行交流、完成特定语言任务的关键学科。豪不夸张的说,人工智能能否真正“智能”,很大程度上都依赖于自然语言处理领域的发展。也正因如此,ChatGPT在人类语言领域的成功,很大程度上给出了通向通用人工智能的希望。

1.6 只是预测下一个“词”而已?

1.7 引爆新一轮技术革命的真实原因:涌现能力

1)大语言模型的训练目标是什么?

大语言模型的原始训练目标是为了生成自然、连贯的文本,这也就是为什么GPT-3模型最早是被用来编写新闻稿件、写小说、编写产品介绍文案、诗歌等。

好的,我可以帮你优化这篇文章。请问你想要优化成什么样子的文章呢?比如字数限制在55字以内,内容更加精简,更具吸引力等等。

2)引爆新一轮技术革命的真实原因:大语言模型的涌现能力

大语言模型的潜力远不止于文本创作。人们看好它的根本原因在于,当模型规模足够大(参数丰富且训练数据充足)时,它展现出了强大的“涌现能力”。

涌现能力(Emergent Capabilities)是模型在未针对特定任务训练的情况下,仍能在合理提示下处理任务的能力。它也可被视为模型的潜力,这正是LLM火爆的核心原因——巨大的技术潜力。

3)大语言模型的涌现能力具体有哪些?

对话能力:大语言模型的涌现能力之一。对于Completion模型等大语言模型,它们并未经过对话语料训练,因此对话能力并非原生能力。

4)大语言模型到底能做什么?

·原生能力范畴一一文本创造:写稿件、邮件、小说、新闻、诗歌…

涌现能力涵盖对话、编程、翻译、推理(包括逻辑推理、自然科学类推理、NLP自然语言推理等),以及其他各类NLP任务,如文本分类、情感识别、推荐排序等。这些技能使得涌现智能在各个领域都能够发挥重要作用,为人们的生活带来便利。

2.重点概念解析

2.1 模型

在AI领域,模型是算法框架,用于理解、预测和解决问题。它可以是数学公式或复杂神经网络,基于数据学习。模型的目的是从训练数据中检测模式和关系,然后在新数据上应用规则做出决策或推断。AI模型有多种类型,如决策树、支持向量机、神经网络等,取决于问题和使用的技术或方法。

2.2 大语言模型

1)什么是语言模型

语言模型是一种学习自然语言中单词序列分布的算法,通过捕捉显著统计特征,实现基于前一个词对后一个词的概率预测。

2)什么是大语言模型?

大语言模型(LLM)是一类神经网络模型,具备庞大参数和计算能力。以GPT为例,它拥有128层网络、1750亿参数,并依靠45TB数据进行训练。

2.3 自然语言处理

大语言模型的诞生并非一蹴而就,它经历了漫长的发展历程。作为自然语言处理领域的重大突破,大语言模型展示了人工智能(AI)在计算机与自然语言交互方面的潜力。

自然语言处理(NLP)的发展历程可分为早期、中期以及现代(后期)三个阶段:

"在20世纪50年代至80年代,自然语言处理的起源于基于规则的系统。这些系统依赖于语言学家精心构建的复杂规则来解析和处理各种语言现象。"

早期NLP研究聚焦于机器翻译,如1950年代的Georgetown-IBM实验,采用简练俄英规则进行翻译。

句法分析:70年代见证了句法分析器的开发,它们依靠编码的语法规则来解析文本。

在中期(1980s-2000s),与基于规则的系统相比,统计方法开始变得流行。 统计模型在NLP中变得主流,尤其是隐马尔可夫模型(HMMs)和概率上下文无关文法(PCFGs)被用于语音识别和句法分析。

自1990年代起,统计模型在自然语言处理(NLP)领域崭露头角,尤其是隐马尔可夫模型(HMMs)和概率上下文无关文法(PCFGs)在语音识别和句法分析中发挥着重要作用。

数据驱动学习:大规模语料库的建立使得基于数据的机器学习方法发展迅速。

Word2Vec是一种用于将自然语言文本中的单词转换为向量表示的技术,它被广泛应用于自然语言处理和深度学习领域。在2010年代初,Word2Vec词嵌入方法的发明以及卷积神经网络(CNNs)和循环神经网络(RNNs)在NLP的应用推动了深度学习的爆发 。

注意力机制和Transformer模型的出现彻底改变了NLP领域,这导致了BERT、GPT等预训练语言模型的开发。Transformer 模型是一种深度学习架构,自 2017 年推出以来,彻底改变了自然语言处理 (NLP) 领域。该模型由 Vaswani 等人提出,并已成为 NLP 界最具影响力的模型之一。传统的顺序模型(例如循环神经网络 (RNN))在捕获远程依赖性和实现并行计算方面存在局限性。

为了解决这些问题,Transformer 模型引入了自注意力机制,通过广泛使用该机制,模型能够在生成输出时权衡输入序列中不同位置的重要性。Transformer 模型通过自注意力机制和并行计算的优势,能够更好地处理长距离依赖关系,提高了模型的训练和推理效率。它在机器翻译、文本摘要、问答系统等多个 NLP 任务中取得了显著的性能提升 。

预训练语言模型:通过学习海量非标注文本,实现NLP任务的高效表现,微调后适应多种场景,显著提升下游应用效果。

2.4 什么是token

人类语言由文字构成,单词是含义的最小单位。为让计算机理解自然语言,需寻找数字表示方法。这是实现自然语言处理的第一步。

2.5 什么是词嵌入(word embedding)

词嵌入,一种将单词映射至实向量的技术,揭示了自然语言中词的复杂性。作为思维表达的基本单元,词在这里以向量形式展现其独特特性,成为理解大脑思维的关键。

2.6 什么是预训练?

2.7 什么是微调?

大模型微调,一种精妙的训练方法,通过向模型输入特定领域的数据集,实现对特定功能的“调教”。这使得大模型在NLP任务上如情感分析、命名实体识别、文本分类和对话聊天等方面表现更出色。

微调阶段是模型训练的关键,它通过调整参数来强化模型的记忆力,使其更好地吸收并记住额外的信息。这是让大型模型永久记住信息的有效途径。

有监督微调:supervised fine-tuning,简称SFT;

"数据标注:为微调过程提供高质量有标签数据集的必要环节。大模型发展推动了其在数据标注中的应用,以期减少人工劳动。"

2.8 什么是提示工程?

在AI和自然语言处理领域,特别是在使用大型语言模型(如GPT系列)时,Prompt是引导模型生成特定输出的输入文本。它可以是问题、描述或指令,告诉模型应如何生成所需输出。简而言之,Prompt是与大型模型对话的语言,是其核心应用。

2.9 什么是增强检索(RAG)?

检索增强生成(Retrieval-Augmented Generation,简称RAG)是一种人工智能技术,该技术通过检索信息库中的相关事实,以提高大型语言模型(LLMs)的准确性和可靠性。

RAG结构是由Facebook AI于2020年提出的,旨在改善机器理解和生成自然语言的能力。RAG是一种结构或设计方法,结合了信息检索技术和文本生成模型,在 LLM 本就强大的功能基础上,RAG 将其扩展为能访问特定领域或组织的内部知识库,所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法。

2.10 什么是知识库?

RAG(Retrieval-Augmented Generation)是一种结合了信息检索和生成模型的人工智能系统,旨在通过检索相关信息丰富回答,同时利用生成模型自动生成文本回答或解决方案。

2.11 什么是智能体(Agents)?

AI Agent是一款基于大型语言模型的智能应用,作为大模型的上层应用,其主要功能不仅局限于聊天对话,还能接入外部工具,直接协助你完成各种任务。

ChatGPT 能教你如何写 SQL 查询代码;

Agent 能帮你直接从数据库中提取数据。

2.12 什么是GPTs?

GPTs,这款由OpenAI开发的神奇工具,让无需编程知识的用户轻松创建数学、论文、创意设计等多样化任务的专属AI助手。通过简单的聊天交互,你可以将指令、额外知识和任何技能巧妙地组合搭配。从某种意义上说,它也是智能体的代表。现在,你甚至可以将它上架至GPT Store,让全球用户共同体验这一创新科技带来的便捷与惊喜。

"GPT Store, OpenAI的杰出创新,为开发者与社区提供了一个共创、分享和探索基于GPT的应用的无限可能。在这里,您将发现丰富的搜索和分类排行榜,助力创作者实现收益增长,同时激励用户制作并分享他们的工具。截至2024-3-10,这个平台上已经汇聚了超过400万的GPTs创意。"

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

0 阅读:0
薪科技快评

薪科技快评

薪科技评说,发现技术的点滴,记录科学的飞跃!