文|世昕
编|园长
在许多人眼中,AIGC的元年已经来临了。
风从AI绘画开始刮起。2022年8月31日,一幅名为《太空歌剧院》的绘画作品在美国科罗拉多州博览会的美术比赛中斩获了一等奖,随即引发了舆论风暴,其创作者游戏设计师Jason Allen更是被推上了风口浪尖。
某种程度上,《太空歌剧院》代表的是一个时代的奇点——AI创作的内容,拥有了击败人类作品的实力。没错,实际上,Jason Allen并不是作品严格意义上的创作者,他利用AI绘图软件MidJourney创作了《太空歌剧院》,经过近千次的调整和尝试,才将这幅宏大的科幻作品呈现到了无数人面前。
AIGC初露端倪,随即便席卷了全球,很快,“拥有灵魂的人工智能”ChatGPT横空出世,在一场场对话与互动中,人们惊叹着,属于AI的时代似乎真正来临了。
在国内外,一场AIGC的内容创作革命也旋即开始,在谷歌、微软大步向前的同时,百度、腾讯等国内玩家也进一步加紧了布局。2023年1月10日,2022百度Create大会正式举办,在百度希壤元宇宙中,10万人同屏共同见证了过去一年百度在新技术领域实现的突破,而AIGC则是其中最重要的部分之一。
这再度印证了许多人对于这一赛道的判断:AIGC必将成为时代的下一个风口。
元年来临为何此前一直在公众领域默默无闻的AI绘图能够突然爆火?
事实上,在过去一年里AI绘图的迭代堪称恐怖。自2015年开始,AI绘图就在GAN(生成式对抗网络)概念模型迎来了较为快速的发展,但始终难以突破技术的瓶颈,实现高效率又低门槛的图片生成,彼时的AI绘图,不仅需要输入复杂的参数,生成时间也较长,最终的结果也往往不能尽如人意。
但与此同时,NLP(自然语言处理)技术在架构升级中不断向前演进,预训练模型的使用进一步提升了AI的深度学习能力。这为绘图技术的突破提供了新的想象力,2022年,另一个计算机视觉生成技术扩散模型(Diffusion model)被广泛使用。
扩散模型早期相关论文在NLP与视觉生成技术的双重进化下,AI绘图终于突破了临界点,迎来了爆发。标志性就在于,只要输入关键词组,每一个用户都能利用AI绘图技术创作出足够精美的图画,并且创作效率是秒级的。
AI绘画让人工智能生成内容广为人知,而ChatGPT的出现则让人们看到了AI的“恐怖实力”。ChatGPT是人工智能巨头OpenAI推出的对话式AI产品,聊天式AI似乎早在几年前就非常常见了,但ChatGPT的魅力在于,它似乎能够真正“理解”使用者的语义,并给出相对合理的反馈。
更重要的是,ChatGPT不仅是一个对话式AI,它还融合了检索等功能,真正能通过对话生成、创作文本内容,且这些内容拥有相对较高的质量。你可以让它作一首诗,解答一个哲学意味的问题,甚至帮你做一些创作类型的工作,比如写剧本,或者编程。
ChatGPT背后是OpenAI推出的AI模型产品GPT-3.5,基于对超大规模数据的深度学习,GPT-3.5的性能已经实现了飞跃式的进展,这才为ChatGPT赋予了“灵魂”。
在AI绘图与ChatGPT等产品的多重震撼下,人们终于注意到了一个新的名词——AIGC,即AI生成内容。2022年12月16日,Science杂志发布了2022年度科学十大突破,AIGC正是其中之一,在不少人看来,AIGC是下一个科技革命的开端,新的时代正在来临。
放眼世界,Stability AI、OpenAI群星闪耀,而在国内AIGC领域,同样也有一批企业抓准了时代科技的脉搏,而百度绝对能成为其中最具代表性一家企业。
早从十年前开始,百度就已经入局人工智能领域,是国内最早一批进驻AI赛道的玩家,在多年的深度耕耘中,百度在人工智能领域的投入超千亿,始终引领着国内AI技术的发展,也是世界AI领域最杰出的企业之一。
早从几年前开始,百度就已经在AIGC领域展开布局,在今年A绘图迎来技术突破之时,百度就推出了基于文心大模型的AI绘图产品文心一格,其也是国内最早出现、技术力最强的AI绘图产品之一。
ChatGPT以对话反馈与生成式搜索惊艳全球,百度也早已将AI技术深度植入了搜索引擎汇总,同样基于文心大模型,百度搜索已经进行了一轮AIGC化升级,通过搜索就能生成图表、文本等内容,用户的开放型搜索需求进一步得到了满足。从某种角度来说,中国的ChatGPT或许正在来临的路上,基于百度搜索的强大数据基础,在准确度与时效性上,百度的生成式搜索或许能够更加强大。
产品及应用已初见成效,对于百度来说,这一次的Create大会就是一个重要的节点,其第一次系统地对自身的AIGC成果进行了展示。那么,在元年来临的时刻,百度是如何理解AIGC的,又将打出什么差异化的玩法?
科技、反馈、创新李彦宏再一次站在了Create大会的演讲台上。
这已经是百度Create大会的第五年,一直以来,Create大会都是全国乃至全世界AI开发者的一场盛会,但在2022年之后,Create大会也正在发生着变化,而契机正是AIGC。
百度创始人、董事长兼首席执行官李彦宏在大会上发表演讲对于李彦宏和百度来说,AIGC在2022年的爆发,代表的是新时代的开始。
“让我来判断第四次科技革命的标志,我认为是深度学习算法。这个技术能够带来的效率提升、能够驱动的经济增长,是比很多人想象的要更大的。”在演讲中,李彦宏给出了这样一个判断,过去一年AIGC的技术突破与强应用更是为AI领域发展提供了新的视角。
“技术层面,AI从理解内容,走向了自动生成内容,这包括AIGC用于作画、用于图文、视频等多类型的内容创作。”在李彦宏看来,方向的转变是清晰可见的,从在过去各个巨头对真正实现AGI(通用人工智能)的“执念”,到现在AI在创作领域的广泛应用,AI正在实践化、实用化的路上飞速狂奔着,同时在实践的过程中,通过最真实的反馈驱动创新。
这也是李彦宏的核心观点之一,即“反馈驱动创新”。他在演讲中提到了一个例子,即一位盲人在没有外部反馈的条件下需要用137亿年才能还原魔方,而在有及时反馈的情况下只需要两分半钟,“闭门造车”永远不能带来真正的创新发展。
百度正在这条“反馈”驱动创新的路上前行着。以百度AIGC的基石文心大模型为例,作为百度在NLP等领域布局的预训练大模型产品,文心大模型能有效集成自然语言处理、计算机视觉、智能语音等多模态能力,并在实践中推进深度学习技术的发展,以及大模型产品的调优。目前为止百度文心已经累计发布了11个行业大模型,深入科技、金融、创作等多个领域,作为技术底座,文心大模型能够适应多业务场景与行业需求,同时在实践中不断进化。
百 度首席技术官 王海峰 宣讲文心大模型的应用百度将AIGC的实践同样融入在了整个大会之中。
2022百度Create大会也是首届“人机共创大会”,最直接的表现即为,整个大会中深度应用了AIGC技术,在宣讲百度及行业的技术发展的同时,通过AIGC创造、搭建数字化演讲场景,比如在大会开场视频里,数字人希加加即开展一场Create世界的多维度跑酷,带领与会者深度参与进未来之中;在大会之中,数字人乐队还演绎了了AI作词作曲的歌曲,展现了AI超强的创作能力。
值得关注的是,数字人正在成为百度展现AIGC实力的最佳窗口。一直以来,数字人都被认为是AIGC技术的集大成者,以百度的度晓晓为例,2022年,度晓晓发布了MV《启航星》,无论是词曲还是MV内容,都完全由AI创作;度晓晓还在世界大会上挑战了实时创作高考作文,四十秒内完成了四十篇,并且获得了较好的得分反馈。
百度数字人融入了计算视觉技术、智能交互、语言生成等多种先进技术,能够最直接地将AIGC融入其中。在大会的宣讲环节里,百度还展示了他们在智慧出行、智能搜索、元宇宙解决方案、量子计算机、AI异构计算平台等技术突破,在每一个宣讲的背后,都有度晓晓、希加加、林悠悠等数字人的参与,他们不仅深度参与了大会内容的创作过程,还在宣讲场景、演讲脑图展开实时生成,从某种角度来说,AI成为了这场大会最重要的幕后创造者之一。
在2021年的Create大会上,李彦宏曾下过一个判断,“随着技术应用门槛不断降低,创造者们将迎来属于人工智能的黄金10年”,事实证明,这句话无疑是正确的。2022年开始,AIGC的黄金时代正在来临,人机共创Create大会或许只是个起点。
人机共创时代我们再度将视角回归AIGC本身,百度所理解、践行的AIGC到底是什么样的?又将如何抓住“元年”的机遇?
正如“人机共创大会”这一名称一样,百度认为AIGC是一种“人机共创”的新模式。在2022年6月的世界大会上,李彦宏就曾直言,未来十年,AIGC将会颠覆现有内容生产模式。其并不仅是AI生成内容那么简单,AIGC代表的是内容生产力的一种解放,在效率、精细度以及数据采样等领域,AI都拥有极强的优势,用更低的成本创造出更多元独特的内容。
“人机共创“也同样需要更深层次的理解。在AIGC渐起之时,“取代人类创作者”的论调甚嚣尘上,甚至在绘画领域掀起了一场大论战,而在百度看来,AIGC代表的是一种更先进的生产方式,而不是AI将人类“取而代之”。
这主要关乎三方面,一方面是辅助内容创作,以文本创作和美术设计为例,AIGC能够完成许多较为基础的工作,大大提升创作者的效率;另一方面,AIGC是真正需要贴近用户需求的,以更低门槛、更便捷的方式为人们提供创作相关的服务,掌握基本的技术,人人都能通过AIGC成为创作者;最后,AI也并不是“完美”的,只有与人类创作者的结合中,在不断地反馈、纠错之下,才能产生更优质的内容产品。
我们可以以百度的文心大模型驱动的AIGC产品为例,其衍生出了三个内容生成模型,百度大模型负责人吴华将它们称为三个能力超群的天才创作者。
百度技术委员会主席 吴华讲解文心内容生成模型首先是“天才编剧”文心 ERNIE 3.0 Zeus,其是基于文本创作的内容生成模型,它能够从包括诗歌、剧本、小说等多类型数据中进行深度学习,同时通过多样的任务学习知识,从而更好的应对多样的文本生成任务。例如写剧本,文心 ERNIE 3.0 Zeus可以在创作者输入总纲及分集要求的情况下撰写剧本,实现高效率的创作。文心 ERNIE 3.0 Zeus在几十类自然语言理解和生成公开权威任务上,以及零样本和小样本学习任务上处于世界领先水平。
文心 ERNIE-ViLG 2.0则针对的是当前的风口AI绘图。在百度文心一格平台上,你就能体验到大模型生成图片内容的实力。通过一句话或者一段描述文本,文心 ERNIE-ViLG 2.0就能生成你想要的视觉画面,堪称天才美术师、设计师。文心一格作为国内领先的绘图产品,其核心优势在于在扩散模型的基础上进行了知识增强,引入语言、视觉等多源知识,指引模型更加关注文本和图像中的核心语义元素,实现更精准的语义控制。
最后即是视频内容生成与编辑技术,百度基于大模型给出了一整套视觉内容生成与剪辑的技术方案。简单来说,用户可以通过一个视觉画面或者一段描述文本,生成视频内容,同时这一内容是高清、流畅的。在视频编辑方面,AIGC技术的运用也更加娴熟,无论是视频修复,还是提升质感,文心大模型都已经实现了落地,大大提升了这一领域的创作效率。
从文本到图像再到视频,我们能看到,百度的AIGC内容生产工具是非常清晰的,借由这三位帮手,创作者能够实现更高效率的生产工作,普通人也能借由工具成为内容创作者,这无疑是对未来内容生产的一次革新。
百度也同样有着独属于自身的优势,一方面是知识增强、小型化等技术优势,能够帮助国内AI领域实现弯道超车,通过差异化打法中推动AIGC的迅速发展;另一方面,百度对于AI的布局是产业级的,“百度是全球为数不多的、进行全栈布局的人工智能公司。我们所做的事情可以分为四层:芯片层、框架层、模型层和应用层。”李彦宏在演讲中提到。在这样的产业链路之下,百度能够将AIGC真正运用进产业场景中,再度实现实践中反馈,反馈中创新的循环链路。
值得一提的是,百度没有忽视人才的重要性。AI领域,人才是最核心的资源之一,百度已经在三年间培养了超过300万AI人才,距离500人才的目标距离不远,在这一次的百度Create大会上,百度也再提人才战略,宣布未来百度会投入更多资源,通过高校合作、竞赛等方式推动创新实践型AI人才的培养。
2022百度之星大赛最小决赛选手王茂骅在演讲的最后,李彦宏展示了一幅用文心一格平台创作的画作,以“危机和希望”为关键词,为AIGC乃至AI领域的发展作“序”。“生机勃勃的新生命已经破冰而出,然而寒冷还没有完全褪去。”在黑暗中摸索,走无人走过的路,百度正在开启一个属于AI的崭新时代。