MiniMax举行开发者大会,发布音频、视频模型

聊点科技行叭 2024-09-04 03:10:55

日前,通用大模型初创公司MiniMax方举行了首届“MiniMax Link伙伴日”开发者大会,并发布视频生成模型video-1、多功能端到端音乐生成模型music-01,以及生成式语音合成大模型speech-01。

据悉,MiniMax此次推出的video-01模型主打原生高分辨率、高帧率视频生成,具有压缩率高、文本响应好和风格多样的特性。目前所有用户均可登录海螺AI官网体验其视频生成功能,只需输入一段简单的提示词,该模型就可生成约5秒的视频。目前video-01仅支持文生视频功能,图生视频、可编辑、可控性等功能将在后续产品迭代中逐步开放。

对此MiniMax创始人兼CEO闫俊杰表示,目前对外展示的只是产品的初版,未来会逐步推出更新版本。因此该模型会暂时免费提供,直到更新到满意的状态、才会进一步考虑商业化,以及“未来的商业化主要分为两种形式,一类是基于公司的开放平台,以及公司积累的2000多家客户合作伙伴,很多知名公司用户也愿意使用声音识别能力,另一类则计划在自有产品中引入广告机制”。

此外闫俊杰还补充到,现阶段MiniMax关注的主要重点并不是商业化,作为一家科技公司,技术始终是最核心的要素。对于此次推出的多模态模型矩阵产品,他表示“这只是一个开始,接下来将在模型速度和效果方面继续改进,将会进一步发布相应产品”。

针对MiniMax为何会加入视频生成赛道、布局多模态模型这一问题,闫俊杰表示,“MiniMax进入视频生成领域是非常自然的过程。当前,用户消费的主要内容形式已经从文字转向了动态内容,这是非常重要的领域。虽然文本模型是信息的精华部分,但为了更好地覆盖、触达用户,必须涉足动态内容。因此,MiniMax的技术路线,逐步从文字开始拓展至声音、图片,现在是视频”。

此外他还透露,新一代能从速度和效果方面都对标GPT-4o的大模型abab7,将会在未来⼏周内发布。

公开信息显示,MiniMax成立于2021年,致力于类似ChatGPT的AI解决方案研究和基础模型研发工作。此前该公司已完成3轮融资,投资方包括腾讯、米哈游等公司。2024年3月曾有消息源透露,其或正在进行新一轮、由阿里巴巴领投的融资,但该公司与阿里方面均未对此进行回应。

此前在2023年3月,MiniMax发布了面向B端用户的大模型技术平台“MiniMax开放平台”。随后在同年8月,MiniMax大模型全面开放,能力适用于大多数文本处理相关的场景,如逻辑推理、文本续写、文案生成、文本扩写、文本改写、代码生成等。此外MiniMax开放平台还提供了声音大模型能力,可应用于配音和音频交互等场景。

今年1月MiniMax全量发布大模型abab6,同时这也是国内首个MoE(混合专家架构)大模型。据称在MoE结构下,abab6拥有大参数带来的处理复杂任务的能力,同时模型在单位时间内能够训练足够多的数据,计算效率也可得到大幅提升。

据MiniMax方面公布的最新数据显示,目前该公司的模型处理了超过30亿次的客户交互,一年前MiniMax的模型交互时长仅为ChatGPT的3%、现在这一比例已提升至53%。

0 阅读:2

聊点科技行叭

简介:感谢大家的关注