多模态人工智能应用能力

复杂场景、长文本等内容中各个元素的组合，例如虚拟数字世界中人、物和环境间的交互并组合生成为整体场景；长篇文字内容用词、语句、段落间的相互呼应和组合。组合性追求概念、规则等抽象表达的组合，以此完成更加丰富和生动的数字内容生成，这些新出现的需求对传统单一模态的人工智能算法框架提出了新的挑战。近年来，研究界在大规模深度网络、多模态人工智能方面的探索表明大模型具备易扩展性，能够实现跨模态的知识沉淀，以大模型为基础模型，通过大模型小型化技术使得人工智能在小数据集场景下也能具备优秀的理解、生成和泛化能力，具有超大规模、超多参数量的多模态大型神经网络将引领 AIGC 技术升级正在成为学界、产业界共识。 1. 视觉大模型提升 AIGC 感知能力：以图像、视频为代表的视觉数据是互联网时代信息的主要载体之一，这些视觉信息时刻记录着物理世界的状态，并在不断传播和再创作的过程中，反映人的想法、观念和价值主张。赋以人工智能模型感知并理解这些海量的视觉数据的能力，是实现人工智能生成数字内容、数字孪生的基础；感知能力的提升，是实现生成视觉内容语义明确、内涵丰富、效果逼真的前提。针对视觉信息的感知研究，在传统机器学习时代主要基于科研人员手动建模的特征和基于统计学习理论构建的朴素分类器，例如支持百度文心大模型：https://wenxin.baidu.com/；OpenAI DALL·E 2 大模型：https://openai.com/dall-e-2/；智源研究院大模型：https://mp.weixin.qq.com/s/j8q018Lck1TWHO3NxQDiJQ向量机模型（SVM），其能完成的任务类型和感知能力都非常有限；在深度学习时代，主要基于深度神经网络模型，例如深度残差网络（ResNet），其数据驱动的端到端学习范式使得模型的感知能力有了显著提升，在工业界也得到广泛的应用。但是，这类模型往往针对单一感知任务进行设计，很难同时完成多种视觉感知任务。如何解决不同场景、环境和条件下的视觉感知问题，并实现鲁棒、准确、高效的视觉理解，是 AIGC 技术必须要解决的挑战。以视觉 Transformer （ViT，一种神经网络模型）[12] 为代表的新型神经网络，因其优异的性能、模型的易扩展性、计算的高并行性，正在成为视觉领域的基础网络架构，并且逐渐发展出来十亿甚至百亿参数规模的模型。在过去的 2-3 年间，视觉感知和理解技术正迎来突飞猛进的发展。无监督学习技术，包括对比式自监督学习（例如 SimCLR 和 MoCo 系列技术）和生成式自监督学习（例如 MAE 技术），能够大幅降低训练模型所需的有标注数据的数量。经过无监督预训练的深度神经网络模型，仅需要在少量的有标注样本上经过微调学习，即可在多种场景，线上线下均取得优异的性能。近年来基于Transformer 衍生出来一系列网络结构，例如 Swin Transformer、ViTAE Transformer。通过将人类先验知识引入网络结构设计，使得这些模型具有了更快的收敛速度、更低的计算代价、更多的特征尺度、更强的泛化能力，从而能更好地学习和编码海量数据中蕴含的知识。这些新型的大模型架构，通过无监督预训练和微调学习的范式，在图像分类、目标检测、语义分割、姿态估计、图像编辑以及遥感图像解译等多个感知任务上取得了相比于过去精心设计的多种算法模型更加优异的性能和表现，有望成为基础视觉模型（FoundationVision Model），显著提升场景感知能力，助力 AIGC 领域的发展。基于视觉 Transformer 完成多种感知任务的联合学习是目前的研究热点。通过探索不同任务关联关系，挖掘丰富的监督信号，能够促使模型学习到更具泛化能力和可被理解的特征表示。此外，联合文本、语音等不同模态数据进行联合学习，探索不同模态数据的语义关联和信息互补，也是训练视觉大模型的重要路径。由此得到的视觉基础大模型在环境感知、内容检索、语义理解、模态对齐等任务上具备先天的优势，对于提升 AIGC 基础环境孪生能力、丰富 AIGC 应用场景具有重要价值。 2. 语言大模型增强 AIGC 认知能力：作为人类文明的重要记录方式，语言和文字记录了人类社会的历史变迁、科学技术和知识文化等。利用人工智能技术对海量语言、文本数据进行信息挖掘和内容理解是 AIGC 技术的关键一环。一方面，语言模型的训练和学习是进行文本生成的核心基础；另一方面，学习并理解人类语言将大幅丰富数字内容的生产能力，创新、丰富数字内容的生产方式，例如构建低门槛创作工具，使用户通过语言描述就能完成例如语言定位、语言编辑等高阶编辑操作。在如今信息复杂的场景中，数据质量参差不齐、任务种类多，导致数据孤岛和模型孤岛的存在，传统自然语言处理技术的不足尤为明显：模型设计、部署困难；数据难以复用；难以学习海量无标签数据挖掘、知识提取的共性能力。对于传统自然语言处理技术的普遍问题，基于语言的大模型技术可以充分利用海量无标注文本进行预训练，从而赋予文本大模型在小数据集、零数据集场景下的理解和生成能力。基于大规模预训练的语言模型不仅能够在情感分析、语音识别、信息抽取、阅读理解等文本理解场景中表现出色，而且同样适用于图片描述生成、广告生成、书稿生成、对话生成等文本生成场景。这些复杂的功能往往只需要通过简单的无标注文本数据收集，训练部署一个通用的大规模预训练模型即可实现。研究者们相信基于语言的认知智能可以更快的加速通用人工智能的到来。例如，谷歌和 OpenAI 分别提出大规模预训练模型BERT[18] 和 GPT[19]，在诸多自然语言理解和生成任务上取得了突破性的性能提升，验证了大模型在零资源、小样本、中低资源场景的优越性。紧随其后，国内外知名企业和高校均投入非常大的人力、算力、数据于自然语言处理大模型的研发，包括谷歌、微软、Meta、清华大学、斯坦福大学、华盛顿大学、卡内基·梅隆大学、京东、华为、百度等等。模型参数量也从最初的千万级发展到了千亿级别，训练代价也从数十天增长到了不容忽略的几十万天（按在单张 V100 上计算）。显然，指数级增长的成本换取的微弱增益让人们意识到，如何设计更高效率的自监督学习方法、更高参数效用比的模型架构、更绿色节能的训练框架成为了大模型未来方向之一。在这个方向上，诸多机构开始了高效绿色的大模型探索之路，并且取得了显著的效果，如通用语言理解评估基准（GLUE）目前（2022 年 6 月）在榜第一名的是由京东探索研究院研发的 Vega v1 织女模型4，依托于预训练阶段多种文本粒度、语种类型、负采样方式上的自监督学习创新，实现了高效的数据知识提取，并采用了有理论支撑的更快捷的分布式优化器。此外，超级深度学习模型可以通过非常低成本的微调快速适应新的产业、领域、行业，实现跨模态、全链路的知识积累、沉淀、传播、复用。基于语言的超级深度学习技术的发展趋势主要体现在训练模型的数据量日益增大、数据种类也更加丰富，模型规模增大、参数量以指数倍增加。通过不断构建语义理解能力增强、逻辑知识可抽象学习、同时适用于多种任务的语言大模型，将会对 AIGC 场景中的各项认知应用产生极大价值。 3. 多模态大模型升级 AIGC 内容创作能力：在日常生活中，视觉和语言是最常见且重要的两种模态，上述的视觉大模型可以构建出人工智能更加强大的环境感知能力，而语言大模型则可以学习到人类文明的抽象概念以及认知的能力。然而AIGC 技术如果只能生成单一模态的内容，那么 AIGC 的应用场景将极为有限、不足以推动内容生产方式的革新。多模态大模型的出现， https://gluebenchmark.com/leaderboard则让融合性创新成为可能，极大丰富了 AIGC 技术可应用的广度。对于包含多个模态的信息，多模态大模型则致力于处理不同模态、不同来源、不同任务的数据和信息，从而满足 AIGC 场景下新的创作需求和应用场景。多模态大模型拥有两种能力，一个是寻找到不同模态数据之间的对应关系，例如将一段文本和与之对应的图片联系起来；另一个是实现不同模态数据间的相互转化与生成，比如根据一张图片生成对应的语言描述。为了寻找到不同模态数据之间的对应关系，多模态大模型将不同模态的原始数据映射到统一或相似语义空间当中，从而实现不同模态的信号之间的相互理解与对齐，这一能力最常见的例子就是互联网中使用文字搜索与之相关图片的图文搜索引擎。在此基础上，多模态大模型可以进一步实现不同模态数据间的相互转化与生成，这一能力是进行 AIGC 原生创作的关键。京东探索研究院 AIGC 多模态大模型生成结果图，只需给定用户简单手绘的语义图或是素描图，多模态大模型学习模型便能够创作出逼真的风景图像，同时，当给定具体文本语义时，图像中的内容也将随之改变，展现出不同的季节亦或是“黄昏时河道干涸”的场景。再以 OpenAI 最新提出的多模态大模型DALL-E 2 为例，给定一个已有的场景图像，该模型能够在指定位置添加指定的目标主体，比如当要求在沙发上（位置 3 处）添加一只柯基狗时，算法可以在指定位置添加不同形态的真实的柯基；当要求在左侧画框中（位置 1 处）添加一只柯基时，算法先是成功的识别出该位置是一幅画，并创作了符合相应画风的柯基狗。基于多模态大模型，AIGC 具备了更加接近于人类的创作能力，并真正的开始展示出代替人类进行内容创作，进一步解放生产力的潜力。对于人工智能而言，能够高质量的完成多模态数据的对齐、转换 https://openai.com/dall-e-2/和生成任务意味着模型对物理世界具备了极为深刻的理解。从某种程度而言，基于多模态大模型的 AIGC 是人工智能算法迈向通用人工智能的重要一步。就好像人类通过不断的对比试错、总结归纳来了解我们身处的物理世界一样，多模态 AIGC 大模型也有希望能够自行总结客观规律，发展出认知与常识，进而帮助人类创造出新的数字世界 AIGC 变革内容创作方式的三大前沿能力，分别是智能数字内容孪生能力，智能数字内容编辑能力和智能数字内容创作能力，意味着模型对物理世界具备了极为深刻的理解。从某种程度而言，基于多模态大模型的 AIGC 是人工智能算法迈向通用人工智能的重要一步。就好像人类通过不断的对比试错、总结归纳来了解我们身处的物理世界一样，多模态 AIGC 大模型也有希望能够自行总结客观规律，发展出认知与常识，进而帮助人类创造出新的数字世界。

世良情感网

米言看科技