MiniMax最近开源的MiniMax-01系列，有哪些值得关注的点？

十万和 2025-01-19 20:26:43

开源模型上下文窗口卷到超长，达400万token！刚刚，“大模型六小强”之一MiniMax开源最新模型——MiniMax-01系列，包含两个模型：基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。MiniMax-01首次大规模扩展了新型Lightning Attention架构，替代了传统Transformer架构，使模型能够高效处理4M token上下文。

这不仅是MiniMax首次将模型开源，也是MiniMax首次公开其技术细节。在此之前，MiniMax一直以闭源模型的身份示人，外界对其底层模型细节知之甚少。

MiniMax发布了MiniMax-01的技术报告。技术报告中透露了MiniMax基础大模型的大胆创新：一是线性注意力机制（Linear Attention）的大规模训练，二是400万Token的超长上下文。

之所以说“大胆创新”，是因为研究一个新的架构风险极大，有去无回。

研究背景：随着大语言模型和视觉语言模型的发展，现有模型上下文窗口长度不足，而扩展窗口面临注意力机制计算复杂度过高的问题。尽管已有多种降低计算复杂度的方法，但在商业规模模型中应用有限，且现有分布式训练和推理框架主要针对 softmax 注意力，难以支持新型架构。研究贡献：成功构建 MiniMax-01 系列模型，在标准学术基准测试上表现优异，长上下文处理能力突出，支持长达 400 万标记的输入，远超现有模型。首次大规模应用线性注意力机制，并通过混合架构有效解决其检索能力不足的问题，详细阐述了算法设计与工程优化细节，为后续研究提供重要参考。

在 MiniMax-01系列模型中，我们做了大胆创新：首次大规模实现线性注意力机制，传统Transformer架构不再是唯一的选择。这个模型的参数量高达4560亿，其中单次激活459亿。模型综合性能比肩海外顶尖模型，同时能够高效处理全球最长400万token的上下文，是GPT-4o的32倍，Claude-3.5-Sonnet的20倍。超长上下文、开启Agent时代我们相信2025年会是Agent高速发展的一年，不管是单Agent的系统需要持续的记忆，还是多Agent的系统中Agent之间大量的相互通信，都需要越来越长的上下文。在这个模型中，我们走出了第一步，并希望使用这个架构持续建立复杂Agent所需的基础能力。

DeepSeek-V3 则在保持高效训练和推理的同时，在数学和编码任务上表现出色，并且在长上下文理解方面也展现出强大的能力。

两者都采用了 MoE 架构和先进的训练策略，在提升模型性能的同时，也考虑了训练成本和效率。

未来，随着硬件和算法的不断发展，MiniMax-01 和 DeepSeek-V3 都有望在各自的领域取得更大的突破，推动 LLM 的发展。

0 阅读：4