MiniMax举行开发者大会，发布音频、视频模型

日前，通用大模型初创公司MiniMax方举行了首届“MiniMax Link伙伴日”开发者大会，并发布视频生成模型video-1、多功能端到端音乐生成模型music-01，以及生成式语音合成大模型speech-01。

据悉，MiniMax此次推出的video-01模型主打原生高分辨率、高帧率视频生成，具有压缩率高、文本响应好和风格多样的特性。目前所有用户均可登录海螺AI官网体验其视频生成功能，只需输入一段简单的提示词，该模型就可生成约5秒的视频。目前video-01仅支持文生视频功能，图生视频、可编辑、可控性等功能将在后续产品迭代中逐步开放。

对此MiniMax创始人兼CEO闫俊杰表示，目前对外展示的只是产品的初版，未来会逐步推出更新版本。因此该模型会暂时免费提供，直到更新到满意的状态、才会进一步考虑商业化，以及“未来的商业化主要分为两种形式，一类是基于公司的开放平台，以及公司积累的2000多家客户合作伙伴，很多知名公司用户也愿意使用声音识别能力，另一类则计划在自有产品中引入广告机制”。

此外闫俊杰还补充到，现阶段MiniMax关注的主要重点并不是商业化，作为一家科技公司，技术始终是最核心的要素。对于此次推出的多模态模型矩阵产品，他表示“这只是一个开始，接下来将在模型速度和效果方面继续改进，将会进一步发布相应产品”。

针对MiniMax为何会加入视频生成赛道、布局多模态模型这一问题，闫俊杰表示，“MiniMax进入视频生成领域是非常自然的过程。当前，用户消费的主要内容形式已经从文字转向了动态内容，这是非常重要的领域。虽然文本模型是信息的精华部分，但为了更好地覆盖、触达用户，必须涉足动态内容。因此，MiniMax的技术路线，逐步从文字开始拓展至声音、图片，现在是视频”。

此外他还透露，新一代能从速度和效果方面都对标GPT-4o的大模型abab7，将会在未来⼏周内发布。

公开信息显示，MiniMax成立于2021年，致力于类似ChatGPT的AI解决方案研究和基础模型研发工作。此前该公司已完成3轮融资，投资方包括腾讯、米哈游等公司。2024年3月曾有消息源透露，其或正在进行新一轮、由阿里巴巴领投的融资，但该公司与阿里方面均未对此进行回应。

此前在2023年3月，MiniMax发布了面向B端用户的大模型技术平台“MiniMax开放平台”。随后在同年8月，MiniMax大模型全面开放，能力适用于大多数文本处理相关的场景，如逻辑推理、文本续写、文案生成、文本扩写、文本改写、代码生成等。此外MiniMax开放平台还提供了声音大模型能力，可应用于配音和音频交互等场景。

今年1月MiniMax全量发布大模型abab6，同时这也是国内首个MoE（混合专家架构）大模型。据称在MoE结构下，abab6拥有大参数带来的处理复杂任务的能力，同时模型在单位时间内能够训练足够多的数据，计算效率也可得到大幅提升。

据MiniMax方面公布的最新数据显示，目前该公司的模型处理了超过30亿次的客户交互，一年前MiniMax的模型交互时长仅为ChatGPT的3%、现在这一比例已提升至53%。

世良情感网

MiniMax举行开发者大会，发布音频、视频模型

聊点科技行叭