多模态AI引领大模型浪潮,相关概念股表现强劲助力生态应用拓展

书南科技 2024-07-13 05:35:50

毫无疑问,AI仍是今年的科技主线,大模型能力边界的不断突破有望为AI应用持续创新提供支持。此外,在AI科技主线中多模态技术拥有较大的技术进步空间和想象空间。

多模态大模型是通用AGI必经之路

业内人士指出,相比单模态,多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,更符合人类接收、处理和表达信息的方式,与人类交互方式更加灵活,表现得更加智能,能够执行更大范围的任务,有望推动AI迈向AGI。

此前,大模型在各个领域的应用主要集中在文生文、文生图之上,而多模态大模型技术能够使AI更好地理解人类世界的复杂信息,也让AI落地应用时更符合人类的交互习惯,在智能客服、自动驾驶、医疗诊断等多个领域展现出巨大的应用潜力。

巨头在多模态AI产业场景中创造价值

苹果(AAPL.US)

据外媒7月9消息,彭博社记者古尔曼透露,苹果首款支持AI技术的家居设备将是一个桌面机器人。数月来,古尔曼一直在报道苹果的机器人项目,他指出,桌面机器人是开发进度最快的产品,尽管当下仍处于早期阶段。

据悉,这款桌面机器人融合了苹果在多模态AI和机器人技术方面的最新研究成果。它不仅拥有类似iPad的显示屏,还配备了灵活的机械臂,能够精准地调整位置和方向,使通话等互动体验更加生动有趣。用户在进行视频通话时,机器人可以精准锁定人群中的个别用户,让交流更加自然流畅。

OpenAI

人工智能大佬OpenAI基于自身原生多模态大模型打造的新模型产品——GPT-4o,利用自己模型的原生多模态能力,让用户能用声音和摄像头直接和模型自然地,低延迟地交互,希望能够重塑人机交互的新范式。

并且,OpenAI发布的文生视频大模型Sora迅速引发人们关注。业内分析认为,该项新产品或将促使大模型厂商加大对多模态大模型的研发投入,并进一步推动AGI(通用人工智能)进程。

谷歌(GOOG.US)

在5月份,谷歌I/O开发者大会上的主题演讲中,谷歌展示了由升级后Gemini模型驱动的AI助手项目Project Astra。谷歌重点强调了大模型Gemini 1.5 Pro的多模态和长文本能力,为其推出一系列更新。

在新Gemini的加持下,谷歌搜索将具备多步骤推理能力,可以一次性处理带有多个限制条件的长问题、帮助用户进行头脑风暴,并支持视频搜索,让用户通过拍摄视频来搜索解决方案。这些功能将先在美国推出,谷歌预计会在今年年底前将其带给超过10亿人。

腾讯(TCEHY.US)

随着“百模大战”逐渐演变成“千模大战”,腾讯混元大模型已经过多次迭代升级。目前腾讯混元大模型参数量已达万亿,Tokens数量超过7万亿,并在腾讯云上全新开放混元lite 256k版本、vision多模态版本,以及代码生成、角色扮演、functioncall等子模型和接口,满足不同企业和开发者的需求。

腾讯表示,除了混元大模型本身,腾讯也在积极部署多模态甚至全模态技术。在文生图方面,混元文生图打造了业界首个中文原生DiT架构生图模型效果超开源 Stable Diffusion 模型;在3D生成方面,单图输入仅需30秒即可生成动漫、汽车、建筑等类型的3D模型;在视频生成方面,腾讯混元拥有文生视频、图文生视频、视频生视频核心能力,视频重绘等多样化的产品玩法。

微美全息(WIMI.US)

在这个充满创新时代背景下,据悉,作为多模态大模型行业解决方案提供商,微美全息以其领先的技术和展示了多模态大模型核心技术和AI+行业应用成果,为人工智能产业的发展提供了强大动力,立足长远,微美全息保持着极高的期待,引领多模态生成式人工智能技术走向千行百业。

通过不断创新研发和市场应用,微美全息目前的AI能力已经覆盖到了从C端到B端,从办公场景到教育乃至语言、绘图、视频的场景,推动了AI技术在各行各业的深度融合。而在这次技术变革的驱动下,多模态AI在市场上表现抢眼,微美全息也展示多模态AI领域不同程度的布局和贡献。未来,将有望持续受益于技术进步带来的行业变革和市场需求的扩大,从而推动多模态AI应用生态进入一个新的发展阶段。

结尾

AI快速发展驱动下,多模态能力不断提升,赋能应用端场景,算力基础设施等需求爆发增长,成为电影、广告、游戏、短视频等领域提供新的生产工具,相关行业有望实现降本增效并率先应用。当然,后续建议企业积极关注多模态AI落地带动相关投资机会,保持热情和期待,保持理性和审慎地推动技术的进步。那么,就让我们拭目以待,看看这场AI革命将如何改变世界。

0 阅读:0

书南科技

简介:感谢大家的关注