腾讯开源两个压箱底宝贝:十秒生成3D大模型,腾讯地图已用

南方都市报 2024-11-06 17:22:05

11月5日,在腾讯混元大模型媒体沟通会上,腾讯混元宣布最新的MoE模型“混元Large”以及混元3D生成大模型“Hunyuan3D-1.0”正式开源。

本次开源是腾讯混元继文生图模型后持续开放的一大举措。其中,腾讯混元Large是目前开源领域参数规模最大的MoE模型,在长文容量、专业度方面皆有所提升。另外,腾讯混元3D生成大模型则是业界首个同时支持文字、图像生成3D的开源大模型,10s即可帮助用户生成3D资产。目前,3D生成大模型已应用于腾讯地图,使生成速度提升91%。

10s可生成3D资产,已应用于腾讯地图

长期以来,对于游戏、工业建模、电商体验等3D使用人群而言,传统3D制作时多重挑战,包括对设计师专业技能要求高、人才需求紧迫;3D制作周期长、单模型平均制作时长为1到7天;3D制作成本高、单模型成本百元至万元等问题。

针对3D生成方面的现状,沟通会上腾讯还宣布开源了混元3D生成大模型,并宣布首批开源模型包含轻量版和标准版,轻量版仅需10s即可生成高质量3D资产。该批开源模型包含模型权重、推理代码、模型算法等完整模型,可供开发者、研究者等各类用户免费使用。目前,腾讯混元Hunyuan3D-1.0模型也已上架到腾讯云HAI。

腾讯混元Hunyuan3D-1.0模型生成的3D图片。

此次腾讯混元开源的3D生成大模型Hunyuan3D-1.0,解决了现有的3D生成模型在生成速度和泛化能力上存在不足的问题,可以帮助3D创作者和艺术家自动化生产3D资产。该模型具有强大泛化能力和可控性,可重建各类尺度物体,大到建筑,小到工具花草。

应用上,3D生成相关技术已经开始应用于UGC3D创作、商品素材合成、游戏3D资产生成等腾讯业务中。其中,腾讯地图基于腾讯混元3D大模型,发布了自定义3D导航车标功能,支持用户创作个性化的3D导航车标,相比传统的3D车标重建方案,速度提升了91%。此前,腾讯元宝APP也上线了”3D角色梦工厂“玩法,支持个性化的UGC3D人物生成。

今年以来3D赛道迎来了更多玩家。南都记者关注到,除了腾讯以外,国内企业VAST以及AI教母李飞飞皆在加码这个赛道。聚焦于AIGC3D内容生成的VAST近期携手高砖发布了全球首个3D积木生成大模型Tripo-Gobricks,用户只需输入文字描述或提供参考图像,即可将其转化为可构建的3D积木模型。另外,AI教母李飞飞首次创业成立的空间智能公司WorldLabs也着眼于3D生成世界,宣布长期目标是构建大世界模型(LWM)来感知、生成3D世界并与之交互。

谈及在这个时候开源混元3D生成大模型,腾讯专家研究员、混元文生3D研发负责人郭春超对南都记者表示,一是腾讯业务非常丰富,从公司自身业务出发做3D生成是极其有必要的,无论是动漫、游戏、影视这种偏娱乐类的都离不开3D资产,另外混元的定位也是要回馈社区,所以在这个时间段选择开源。

另外,郭春超还提到,目前3D生成还处于前半程发展阶段,要进一步发展需要社区一起努力,需要有更好的模型、更强的生成能力释放出来才能进一步助推这个领域的发展。

混元升级推出Large模型,长文容量、专业度增强

南都记者了解获悉,此次腾讯最新发布的混元Large模型总参数量389B,激活参数量52B,上下文长度高达256K。此次在模型结构和训练策略方面,腾讯混元Large全面探索了MoEScalingLaw,进行了MoE共享专家路由、回收路由等策略上的创新,并引入了专家特化的学习率适配训练策略,有效提升不同专家利用率和稳定性,带来模型效果的提升。

这次开源的腾讯混元Large模型,与腾讯混元Pro、腾讯混元Turbo等不同尺寸的模型源于同一技术体系,已经在腾讯内部业务经过验证和广泛使用。据了解,腾讯元宝、微信公众号、小程序、微信读书、腾讯广告、腾讯游戏、腾讯会议等近700个内部业务和场景,都应用了混元大模型的能力。

微信读书中的ai问书能力。

MoE(MixtureofExperts)即混合专家模型,是目前国内外主流的大模型结构。2024年年初,腾讯混元宣布在国内率先采用MoE架构模型,总体性能比上一代Dense模型提升50%。此后在今年9月,腾讯混元推出基于MoE架构的多模态理解大模型以及基础模型"混元turbo",在性能、效果、速度等多个领域表现优越,第三方测评居国内大模型第一。

公开测评结果显示,目前腾讯混元Large在CMMLU、MMLU、CEval、MATH等多学科综合评测集以及中英文NLP任务、代码和数学等9大维度全面领先,超过Llama3.1、Mixtral等一流的开源大模型。

在长文本能力方面,腾讯混元Large模型专项提升的长文能力已经应用到腾讯AI助手腾讯元宝上,最大支持256K上下文,相当于一本《三国演义》的长度,可以一次性处理上传最多10个文档,并能够一次性解析多个微信公众号链接、网址,让腾讯元宝具备独有的深度解析能力。

数据方面,腾讯混元Large构建了覆盖数十个类目,高质量、高多样性、大量级的中英文合成数据,显著提升模型效果,其中数学和代码效果提升超过10%。针对长文领域测评数据集缺乏,方法不够客观等问题,腾讯混元Large还基于公开数据,构建了一套完整覆盖长文阅读理解、多文档摘要总结、长文逻辑推理等领域任务的数据集企鹅卷轴(PenguinScrolls),并将对外开放,助力大模型长文方向的技术研究。

采写:南都记者林文琪

0 阅读:101