多模态AI引领大模型浪潮，相关概念股表现强劲助力生态应用拓展

毫无疑问，AI仍是今年的科技主线，大模型能力边界的不断突破有望为AI应用持续创新提供支持。此外，在AI科技主线中多模态技术拥有较大的技术进步空间和想象空间。

多模态大模型是通用AGI必经之路

业内人士指出，相比单模态，多模态大模型同时处理文本、图片、音频以及视频等多类信息，与现实世界融合度高，更符合人类接收、处理和表达信息的方式，与人类交互方式更加灵活，表现得更加智能，能够执行更大范围的任务，有望推动AI迈向AGI。

此前，大模型在各个领域的应用主要集中在文生文、文生图之上，而多模态大模型技术能够使AI更好地理解人类世界的复杂信息，也让AI落地应用时更符合人类的交互习惯，在智能客服、自动驾驶、医疗诊断等多个领域展现出巨大的应用潜力。

巨头在多模态AI产业场景中创造价值

苹果（AAPL.US）

据外媒7月9消息，彭博社记者古尔曼透露，苹果首款支持AI技术的家居设备将是一个桌面机器人。数月来，古尔曼一直在报道苹果的机器人项目，他指出，桌面机器人是开发进度最快的产品，尽管当下仍处于早期阶段。

据悉，这款桌面机器人融合了苹果在多模态AI和机器人技术方面的最新研究成果。它不仅拥有类似iPad的显示屏，还配备了灵活的机械臂，能够精准地调整位置和方向，使通话等互动体验更加生动有趣。用户在进行视频通话时，机器人可以精准锁定人群中的个别用户，让交流更加自然流畅。

OpenAI

人工智能大佬OpenAI基于自身原生多模态大模型打造的新模型产品——GPT-4o，利用自己模型的原生多模态能力，让用户能用声音和摄像头直接和模型自然地，低延迟地交互，希望能够重塑人机交互的新范式。

并且，OpenAI发布的文生视频大模型Sora迅速引发人们关注。业内分析认为，该项新产品或将促使大模型厂商加大对多模态大模型的研发投入，并进一步推动AGI(通用人工智能)进程。

谷歌（GOOG.US）

在5月份，谷歌I/O开发者大会上的主题演讲中，谷歌展示了由升级后Gemini模型驱动的AI助手项目Project Astra。谷歌重点强调了大模型Gemini 1.5 Pro的多模态和长文本能力，为其推出一系列更新。

在新Gemini的加持下，谷歌搜索将具备多步骤推理能力，可以一次性处理带有多个限制条件的长问题、帮助用户进行头脑风暴，并支持视频搜索，让用户通过拍摄视频来搜索解决方案。这些功能将先在美国推出，谷歌预计会在今年年底前将其带给超过10亿人。

腾讯（TCEHY.US）

随着“百模大战”逐渐演变成“千模大战”，腾讯混元大模型已经过多次迭代升级。目前腾讯混元大模型参数量已达万亿，Tokens数量超过7万亿，并在腾讯云上全新开放混元lite 256k版本、vision多模态版本，以及代码生成、角色扮演、functioncall等子模型和接口，满足不同企业和开发者的需求。

腾讯表示，除了混元大模型本身，腾讯也在积极部署多模态甚至全模态技术。在文生图方面，混元文生图打造了业界首个中文原生DiT架构生图模型效果超开源 Stable Diffusion 模型；在3D生成方面，单图输入仅需30秒即可生成动漫、汽车、建筑等类型的3D模型；在视频生成方面，腾讯混元拥有文生视频、图文生视频、视频生视频核心能力，视频重绘等多样化的产品玩法。

微美全息（WIMI.US）

在这个充满创新时代背景下，据悉，作为多模态大模型行业解决方案提供商，微美全息以其领先的技术和展示了多模态大模型核心技术和AI+行业应用成果，为人工智能产业的发展提供了强大动力，立足长远，微美全息保持着极高的期待，引领多模态生成式人工智能技术走向千行百业。

通过不断创新研发和市场应用，微美全息目前的AI能力已经覆盖到了从C端到B端，从办公场景到教育乃至语言、绘图、视频的场景，推动了AI技术在各行各业的深度融合。而在这次技术变革的驱动下，多模态AI在市场上表现抢眼，微美全息也展示多模态AI领域不同程度的布局和贡献。未来，将有望持续受益于技术进步带来的行业变革和市场需求的扩大，从而推动多模态AI应用生态进入一个新的发展阶段。

结尾

AI快速发展驱动下，多模态能力不断提升，赋能应用端场景，算力基础设施等需求爆发增长，成为电影、广告、游戏、短视频等领域提供新的生产工具，相关行业有望实现降本增效并率先应用。当然，后续建议企业积极关注多模态AI落地带动相关投资机会，保持热情和期待，保持理性和审慎地推动技术的进步。那么，就让我们拭目以待，看看这场AI革命将如何改变世界。