读懂AI大模型

陆奇小规模演讲内容涵盖了他对大模型时代的宏观思考，包括拐点的内在动因、技术演进、创业公司结构性机会点以及给创业者的建议。AI 大模型被认为是新时代的工业革命，新的革命性技术意味着新创新，而创新则意味着新机会。我们一方面要开放心态学习新知；一方面，要理解它可能带来的变化。AI大模型究竟是什么？技术发展的关键在哪里？有哪些挑战？对普通人来说机遇在哪？ AI大模型是“人工智能预训练大模型”的简称，包含了“预训练”和“大模型”两层含义，二者结合产生了一种新的人工智能模式，即模型在大规模数据集上完成了预训练后无需微调，或仅需要少量数据的微调，就能直接支撑各类应用。其中，预训练大模型，就像是知道了所有大量基础知识的大学生，甚至博士生，完成了“通识”教育。但他们还是需要实践，需要反馈后的精细调整，才能更好地完成任务。另外，AI大模型具备通用、可规模化复制等诸多优势，是实现 AGI（通用人工智能）的重要方向。当前AI大模型包含自然语言处理(NLP)、计算机视觉（CV）等，统一整合的多模态大模型等。例如，hatGPT就是自然语言处理领域突破性的创新，懂“人话”，说“人话”。超越了以往的自然语言处理模型，可以应对各种自然语言处理任务，包括机器翻译、问答、文本生成等。简单来看，我们可以将大模型看作一个非常大的知识库，里面存储了大量的信息和知识，可以帮助计算机更好地理解和处理输入的数据。大模型中的每个神经元和参数，共同构成了一个强大的网络，可以对输入的数据，进行高效的处理和转换。目前，国内已有百度、阿里巴巴、腾讯、华为、科大讯飞等公司对 AI 大模型进行开发，各模型系列各有侧重，有些已推出并实现部分应用落地。/百度在AI方面布局多年，具有一定大模型先发优势。当前，申请文心一言 API调用服务测试的企业已突破6.5万。在行业大模型上，已经与国网、浦发、吉利、TCL、人民网、上海辞书出版社等均有案例应用。看过“文心一言”发布会的小伙伴肯定能感受到，尽管“文心一言”展现了足够的文案创作能力，但事先录好的视频，也让人感到信心不足，并且，在使用上，“文心一言”的上下文理解、语义逻辑、多轮对话方面尚有欠缺。/阿里通义大模型在逻辑运算、编码能力、语音处理方面见长，集团拥有丰富的生态和产品线，在出行场景、办公场景、购物场景和生活场景均有广泛应用。/腾讯混元大模型已经在广告投放、游戏制作投入使用，目前集团在研究对话式智能助手，预计投入使用后将对QQ和微信生态有一定优化。/华为与 B 端合作紧密，预计未来应用以 ToB 为主。此外，华为在算法、算力上储备较为丰厚。比如：“鹏城云脑 II”获全球 IO500 排行五连冠，拥有强大的 AI 算力和数据吞吐能力；华为云 ModelArts 平台的高效处理海量数据能力，7 天完成了 40TB 文本数据处理；盘古大模型最早已经在 2021 年 4 月正式发布，当前盘古大模型训练文本数据高达 40 TB（GPT-3 为 45 TB）。国产大模型真的比不上国际巨头吗？核心差距在哪里？答案先行：略逊一筹，但仍有追平可能。大模型通常由数亿到数十亿个参数组成，需要在海量数据上进行训练和优化，才能达到更高的预测准确性和泛化能力。业内人也常说：大模型是“大数据+大算力+强算法”结合的产物。行业发展的关键也在于这三点。大数据：数据是算法训练的养料，前期需要给模型喂养大量数据，形成模型理解能力，中后期投喂的数据质量决定了模型的精度。以GPT模型为例，ChatGPT表现更好的原因之一，就是在无监督学习的基础上提供了高质量的真实数据。但机器学习的数据，需要人工提前标注好，标注就是把初级数据进行加工处理, 转换为机器可识别信息，只有经过大量的训练，覆盖尽可能多的各种场景，才能得到一个良好的模型。当前，训练的数据来源多为公开数据，比如根据 AlanD. Thompson博士（前门萨国际的主席、人工智能专家和顾问）的文章，列举的大模型的数据集包括维基百科、书籍、期刊、Reddit链接、Common Crawl 和其他数据集等。数据的多是一方面，另一方面，数据的丰富度、真实性也对大模型的训练至关重要。在训练的中后期，高质量数据将提升模型的精度。比如：更加事实性的数据，将提升模型准确性；更加通顺的中文语言，将提升模型理解中文语言能力；更精准的垂类数据，能完成部分更细分领域的模型搭建。另外，高质量反馈数据更能提高模型性能。比如，ChatGPT 采用人类强化学习 RLHF，通过更专业的问题、指令、人类反馈排序等加强模型理解人类语言逻辑。对于国产大模型来说有两个挑战仍需努力：国内互联网语料质量相对较差，优质的中文标注数据集匮乏；标签主要通过人工标注，具体标注技术细节、对标注员的培训等仍需要国内科技企业探索。大算力:数据提供的是房屋地基，能搭建的多高，取决于算力。算力是计算机系统的计算能力，也就是处理数据和执行计算任务的能力。AI领域，由于深度神经网络需要进行大量的计算和训练，特别是对于大规模的模型和复杂的任务，需要更多的算力来支持。以GPT大模型为例，随着 GPT、GPT-2 和 GPT-3（当前开放的版本为 GPT-3.5）的参数量从 1.17 亿增加到 1750 亿，预训练数据量从 5GB 增加到 45TB，算力需求随之增长。因此，算力的提升可以提高模型的训练速度和效率，也可以提高模型的准确性和性能。衡量头部厂商能否支撑训练及推理环节的算力需求，更多需要考虑两点：钱够不够，够多久，公司战略又是多久。长线投入战略、充足资金预算，是复现 ChatGPT 所必须的要素。以百度为例，2017 年提出“All IN AI”后，资本开支波动上升，去年全年资本开支（除爱奇艺）高达 181 亿元，同期经营现金流增长 30%至 261.7 亿元，截至 2022 年末公司用于进行资本支出的现金及现金等价物余额为 531.6 亿元，钱很够，也够很久。另外，算力的基础设施其实是芯片，芯片性能越好，大模型的处理能力越快。这也是需要钱和战略支持规划的原因。强算法:算法是一组解决问题的步骤和规则，可以用来执行特定的计算或操作。通常用于设计和实现计算机程序，以解决各种问题。算法的好坏直接影响到程序的效率和性能。例如，ChatGPT 在算法上的突破更多在于思路而非具体理论，是“菜谱”而非“食材”的创新，这成为了复现的难点之一。如何判断算法的好坏？主要有三点：空间复杂度、时间复杂度和鲁棒性。时间就是算法完成任务所需的时间；空间是指算法完成任务所需的内存空间；鲁棒性是指算法对异常数据和噪声的容忍程度。通常情况下，时间复杂度和空间复杂度越小，算法的效率越高。一个好的算法应该具有较高的鲁棒性，能够在各种情况下都能正确地执行任务，输出清晰的信息。在实际应用中，可以根据具体需求和场景选择最适合的算法，综合考虑以上因素，找到一个平衡点。例如，GPT就是在 Transformer 模型基础上发展的，Transformer 相比于传统的循环神经网络（RNN）或卷积神经网络（CNN），在处理长文本时，就具有更好的并行性和更短的训练时间，在成本、规模和效率之间实现了正确的权衡取舍。从国产大模型角度看，算法、数据、算力壁垒并非不可逾越，随着人才流动、时间推移和研究进步，大模型性能很可能逐渐趋同。随着产业应用的深入、场景复杂度提升，随之而来的是数据的爆发式增长、算法的飞速更新迭代、算力的消耗指数上升，这些都对人工智能的发展提出新的要求。未来，传统的“掌握通识知识、流程性工作能力等”要求会逐步成为隐藏的底层要求，更显性、高层次的要求则是“创造性价值以及高效利用工具解决问题”的能力。对于普通人来说，AI大模型带给我们的机会大致可以分为两类，一个是短期的投资机会，一个是长期的职业机会。短期来看，在大模型领域有技术储备的公司更有优势，例如，腾讯控股、阿里巴巴、百度等。同时，可以关注已在视频、营销、阅读等相关细分领域抢跑的重点标的，例如科大讯飞、当虹科技、捷成股份、蓝色光标、风语筑、浙文互联等。长期来看，借用陆奇在演讲时所说：“这个时代（大模型时代）跟淘金时代很像，如果你那个时候去加州淘金，一大堆人会死掉。但是卖勺子、卖铲子的人永远可以赚钱。” 人类技术驱动的创业创新，主要可以分为三种机会——底层技术，满足需求，改变世界。第一种，最底层的数字化技术。数字化是人的延伸，包括GPT在内，目前发布的所有大模型AI，都是基于技术。包括英伟达、寒武纪这些芯片公司，也是为底层技术提供硬件设施。我们可以从中寻找合适自己的机会，或者为了这个职位努力完善自己的技能，例如前端、后端、设备、芯片等等。第二种，是用技术去解决需求。需求可以分为两个方向：To C，可以用AI解决大家的娱乐、消费、社交、内容等，一切能够帮助人们过的更好的需求都需要被满足；To B，可以帮助企业降本增效。这部分的机会主要是与人接触，更好地了解用户需求，带来更好的产品或体验。第三种是改变世界。比如能源科技，转化能源，或生命科学，或者是新的空间。例如马斯克正在做的机器人，脑机接口等等，甚至是元宇宙和Web 3。陆奇在演讲中提到，他对大模型相关的看法：更大规模、更复杂的模型结构，意味着更广泛的应用领域，更多的机会——但一定要深思熟虑，先思考，再以行动导向。普通人的机会和大模型的发展非常相似，长期发展一定是技术驱动为主，但在落地的时候对需求的拆解、分析、梳理，把控好需求，是一切的一切。做到你能做到的，其他的，交给未来！

世良情感网

米言看科技