AIGC技术的创作能力

AIGC 技术演化出三大前沿能力：AIGC 技术被广泛应用于音频、文本、视觉等不同模态数据，并构成了丰富多样的技术应用。本节归纳 AIGC 变革内容创作方式的三大前沿能力，分别是智能数字内容孪生能力，智能数字内容编辑能力和智能数字内容创作能力。 1. 增强与转译构建数字内容孪生能力：内容数字化是现今所有数字系统得以存在和运转的前提，其过程是指将视觉、声音、文本等信息转化为数字格式。传统的数字化主要关注对传感器所采集数据的客观记录和储存，但容易忽略所记录的内容本身的完整性和相关语义。相比于传统的内容数字化，智能数字内容孪生技术致力于进一步挖掘数据中的有效信息，在深入理解数据内容的基础上，实现一系列高效、准确、智能的数字内容孪生任务。作为传统数字化的扩充和升级，数字内容的孪生技术受到了持续且广泛的研究。智能数字内容孪生可大致分为智能增强技术和智能转译技术两个主要分支。考虑现实场景中数据采集、传输和储存中可能遇到的多种限制，原始的数字内容经常会存在缺失或者损坏等问题。智能增强技术旨在消除上述过程中的干扰和缺失问题，根据给定的低质量原始数据生成经过增强后的高质量数字内容，力求在数字世界中孪生并重构完整逼真的客观世界。在计算机视觉任务中，智能增强技术多被用于修复并增强由采集设备或环境因素引起的视觉内容受损，例如低分辨率、模糊、像素缺失等。同理，对于有缺陷的文本和音频数据，相关的智能增强技术被用于解决片段缺失、脉冲干扰和音频失真等问题，在实际生产生活中为相关应用生成复原高质量的数字内容。除了对各种模态数据内容的修复和增强，近年间，数字内容孪生中智能增强技术在三维视觉领域取得了快速地发展。具体来说，数字图像是三维世界在摄影设备上的二维投影，传统的数字化记录了拍摄影像的色彩信息，但却无法保留三维世界中的深度、材质和光照等信息。现有的数字孪生技术，可以利用对同一场景拍摄的多张照片，重构并生成相应的三维内容。最近，谷歌等多家国内外科技公司正探索使用互联网上商家和用户上传的照片，生成并渲染不同餐厅、街道和景点的三维全景。通过数字内容孪生中的智能增强技术，算法可以过滤剔除不同照片中天气、时间、行人等扰动信息，专注于生成并渲染不同场所的全时间段三维全景。数字内容孪生中的智能转译技术是建立在对客观世界内容感知的基础上，进一步理解孪生后的数字内容，从而实现多样化的内容呈现的一类技术集合。现阶段比较成熟的智能转译技术包括给定语音信号进行字幕合成，依据文字进行语音生成等。对于智能转译技术，放在第一位的是生成内容的准确性，无论是语音到文本还是文本生成语音，准确地呈现原始信息是该类技术走向实际应用的基础。在准确的基础上，为应对不同的使用场景，相关算法、工程人员还在不断地提高转译算法的实时性和生成语音的真实性。近些年间，智能转译技术已被越来越多地应用于社交、传媒、协同办公、残疾人辅助等实际场景中，为人们的生成生活带来更多的便利。相比于较为成熟的语音/字幕合成，视觉内容描述是近年间学术领域的热点研究课题之一。视觉描述技术致力于生成能够准确描述给定视觉内容（例如图像、视频等）的文本和语音。视觉内容描述技术可以被广泛地应用于赛事转播、智慧交通、影视娱乐等各类应用场景中。虽然现阶段的智能转译技术已经可以初步的描述图像（或视频）中的人物、物体和环境信息，但如何能够准确地生成有关人物行为和主体关系的描述仍是现有技术亟需突破的问题。相比于智能增强技术，智能转译技术更加关注数字世界中不同模态的数字内容间相互理解、融合和转换的能力，从而丰富智能数字内容孪生技术的应用范围和灵活性。数字内容孪生技术通过对真实世界中内容的智能增强和转译，将现实世界的物理属性（如物体的大小、纹理、颜色等）和社会属性（如主体行为、主体关系等）高效、可感知地进行数字化，实现现实世界到数字世界的映射，构建了在数字世界中重现现实场景的能力。通过数字内容孪生技术，不同行业的从业者可以更好地在数字世界中进行内容的组织和展示。 2. 理解与控制组成内容编辑能力：在数字内容孪生技术的基础上，智能数字内容编辑的相关技术构建了虚拟数字世界与现实物理世界间的交互通道。一方面，对数字内容的编辑和控制，例如数字人技术，可以直接作用于物理世界，实现实时的反馈和互动，起到对现实世界中主体陪伴或服务等功能；另一方面，数字内容编辑技术是实现数字仿真的基础。例如在自动驾驶仿真场景中，通过智能编辑，可以实现对同一道路上不同车况和天气状况的控制。基于数字内容仿真，算法模型可以在数字世界中学习到相应的知识和技能，这些知识可以被用来反哺解决现实世界中的问题。从技术角度看，智能数字内容编辑主要通过数字内容的语义理解和属性控制两类技术来实现对内容的修改和控制。首先，理解数字内容是对其进行编辑和修改的必要前提。例如，在处理音频数据进行人声分离时，算法模型需要先理解输入的原始声音信号，才能进一步分离其中的人声信号和背景音，生成两段独立的音频内容。同理，对于计算机视觉中的图片、视频剪辑和自然语言处理中的摘要生成任务，都需要数字内容的语义理解技术进行相关语义的理解和概括，继而修改输入的原始数据以得到最终的生成结果。值得注意的是，现实世界中的内容大多是由多种不同的语义信息组成的。例如，一张人脸照片实际上是由人物的身份信息、面部动作、拍摄视角、摄影设备和光照条件等许多语义信息一同决定的。早期的语义理解技术更多的是将某个内容当做一个整体进行理解，在学习到的数字表征中不同类别的语义信息往往是纠缠在一起的。虽然可以应用于解决某些数字内容编辑任务，但却难以对不同的语义进行精确的理解和修改。基于生成模型的可解耦语义学习技术是解决语义纠缠问题的可行解决方案之一，并在近些年间取得了快速的发展。通过理解并学习不同语义成分的变化，可解耦语义学习技术对数据内容具有更深刻的理解，并逐渐开始服务于人工智能试妆、试衣、生成同一个人https://www.nvidia.cn/omniverse/media-entertainment/不同年龄照片等新兴应用程序。在充分理解数字内容语义的基础上，属性控制技术构成了数字内容编辑的另一主要分支。在语义理解的基础上，数字内容的智能属性控制技术将直接根据用户指定的属性，对原有的内容进行精确地修改、编辑和二次生成。常用的属性控制技术已经广泛地应用于智能图像编辑、文本情感改写和智能调音等多项应用中，并潜移默化地服务人们的生活，作为辅助功能提升内容创作者的效率。此外，先进的智能内容编辑技术结合了语义理解技术和属性控制技术，在处理三维动画内容时，在学习可解耦的视角、光照和角色等语义特征的基础上，智能属性控制技术以比传统算法更加高效且稳定的方式完成虚拟现实、游戏、电影中的渲染和操控；在构造数字人时，属性控制能力可以根据实际需要快速地编辑数字人的外貌、音色、感情、表情等属性，以完成数字人技术在不同场合环境中的应用。数字内容编辑技术在内容孪生技术的基础上，具备了对现实世界内容进行语义理解和属性操控的能力，从而构建了数字世界对现实世界内容的影响和反馈。在数字世界中的操作和尝试将不受限于场地、成本、资源消耗等客观约束，所得到的经验知识也能够更好地反馈给现实世界，提升生产生活的效率。 3. 模仿与概念学习造就内容创作能力：上述的数字内容的孪生和编辑能力主要面向客观世界中的真实内容，通过对现实内容的智能孪生、理解、控制和编辑，AIGC 算法可以快速准确地将现实世界的内容映射到虚拟世界中，并通过控制仿真等方法，对现实世界产生正向的反馈和帮助。更进一步，数字内容的智能创作旨在让人工智能算法具备类似甚至超越人的创作能力。1968 年，毕加索曾这样评价计算机技术：“它们是没用的，只能简单的给出答案。”但在 54 年后的今天，百度已经可以通过人工智能模型进行绘画创作，并被西安美院的教授评价为具有“美院毕业生水平”，在短短 24 小时内就售出了 8700 多份，销售额超过 17 万元7。无需基于任何现实世界中存在的内容主体，基于人工智能算法的内容创作能力有望生成海量的原创数字内容。按照技术的发展进程和实际应用的形态，数字内容的创作能力可划分为基于模仿的创作和基于概念的创作两类。基于模仿的创作需要人工智能模型首先观察人类的作品，通过学习某一类作品的分布特性，人工智能生成模型可以进行模仿式的新创作。以前文中提到的佳士得拍卖的肖像画为例，人工智能算法利用大约 15000 张创作于 14 世纪到 20 世纪的肖像画，从中学习作画的笔法、内容、艺术风格等。最终，人工智能内容生成模型所创作的肖像画通过了视觉图灵测试，让绝大部分人类都难以区分这幅画是艺术家创作的，还是人工智能的作品。不仅仅局限于智能作画，基于模仿的人工智能生成模型在旋律创作、文本写作和诗词创作等具体任务中都取得了不错的表现。对于某一类具体的内容，例如人物画像、押韵诗歌或乐曲旋律，现有的人工https://www.sohu.com/a/557118794_362042智能技术基本可以创作出让人真假难辨的数字内容。但同时，面对更加复杂的数据内容，例如三维数据、视频数据等，现有的技术所创作的内容相比于真实内容仍有一定差距，需要算法模型的不断完善来缩小这些内容的创作难度。基于概念的创作不再简单的对固定种类的数据进行观察和模仿，而是致力于在海量的数据中学习抽象的概念，进而通过对不同概念的组合进行全新的创作。以文本到图像的生成为例，给定的文本不仅可以描述生成内容中需要包含的主体内容、数量和关系，还可以指定生成图像的风格、年代等属性。在现实世界中，人们可能只能见到“木头制作的椅子”，“狮子在捕猎獾鼠”等内容，但是通过文本描述，基于概念的创作技术可以创作出“牛油果制作的椅子”，“在猎捕狮子的獾鼠”等视觉内容。在更进一步理解不同主体间动作、行为、和关系基础上，已经有相关的前沿研究开始尝试通过故事或者剧本描述，创作影视短片。总体来说，基于概念的智能创作与上述智能孪生中的转译技术不同，智能转译更关注对已有内容的精确表达和转换，而基于概念的智能创作是在给定模糊概念的基础上，进行自由生成和创作。数字内容基于概念的创作很大程度上依赖于算法模型对多模态数据的理解、对齐、融合和生成，依赖于人类社会中海量的数据以及相关的描述。基于概念的创作摆脱了对简单学习纹理、形状、颜色的模仿，进一步像人类一样开始学习和总结创作中包含的概念元素，实现更通用、更高效、更智能的 AIGC 应用。伴随着深度神经网络的快速发展，人工智能模型的规模和能力都在不断被刷新，凭借着数据内容的快速增长，算力的爆发以及算法模型的不断迭代，数字内容创作技术突破到了一个新的高度，规模上不断变大，逐步趋近并开始超过人脑的神经元个数，能力上不断增强，展现出强大的多模态理解和生成能力。

世良情感网

米言看科技