MiniMax 开源了最新的基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01。新模型的最大亮点是,在业内首次大规模实现了新的线性注意力机制,这使得输入的上下文窗口大大变长:一次可处理 400 万 token,是其他模型的 20-32 倍。随着 Agent 进入应用场景,无论是单个 Agent 工作时产生的记忆,还是多个 Agent 协作所产生的 context,都会对模型的长上下文窗口提出更多需求。
开源地址:https://github.com/MiniMax-AI
Hugging Face:https://huggingface.co/MiniMaxAI
技术报告https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
网页端:https://www.hailuo.ai
API:https://www.minimaxi.com/platform
模型框架分析

Lightning Attention
目前领先的 LLM 大都基于 Transformer,而 Transformer 核心的自注意力机制是其计算成本的重要来源。为了优化,研究社区可以说是绞尽脑汁,提出了稀疏注意力、低秩分解和线性注意力等许多技术。MiniMax 的 Lightning Attention 便是一种线性注意力。
通过使用线性注意力,原生 Transformer 的计算复杂度可从二次复杂度大幅下降到线性复杂度,如下图所示。

混合专家(MoE)
计算优化
与许多大模型训练项目一样,MiniMax 先通过小规模实验上述技术改进的有效性以及 Scaling Law,然后再开始着手大规模训练。MiniMax 为此采用了 1500 到 2500 台 H800 GPU—— 并且在训练过程中,具体使用 GPU 数量会动态变化。而大规模训练都有自己的特有挑战,MiniMax 开发了一系列针对性的优化技术。
首先,对于 MoE 架构,最主要的优化目标是降低其通信负载。尤其是对于采用 all-to-all(a2a)通信的 MoE 模型。MiniMax 的解决方案是一种基于 token 分组的重叠方案。
其次,对于长上下文训练,一大主要挑战是难以将真实的训练样本标准化到统一长度。传统的方式是进行填充,但这种方法非常浪费计算。MiniMax 的解决思路是进行数据格式化,其中不同样本会沿序列的维度首尾相连。他们将这种技术命名为 data-packing。这种格式可尽可能地降低计算过程中的计算浪费。
最后,为了将 Lightning Attention 投入实践,MiniMax 采用了四项优化策略:分批核融合、分离式的预填充与解码执行、多级填充、跨步分批矩阵乘法扩展。
MiniMax-Text-01模型分析
可以看到,在 HumanEval 上,MiniMax-Text-01 与 Instruct Qwen2.5-72B 相比表现出色。此外,MiniMax-Text-01 在 GPQA Diamond 这样具有挑战性问答的数据集上取得了 54.4 的成绩,超过了大多数开源指令微调的 LLM 以及最新版本的 GPT-4o。
MiniMax-Text-01 在 MMLU、IFEval 和 Arena-Hard 等测试中也取得了前三名的成绩,展示了其在给定限制条件下,应用全面知识来充分满足用户查询、与人类偏好保持一致的卓越能力。可以想象,基于最新的模型能力,也给开发者开发 Agent 应用提供了更好的基础。

同样,MiniMax-Text-01 在 LongBench v2 的长上下文推理任务上的表现也非常突出。

本地测试

可以看到,MiniMax-VL-01 整体表现强劲,整体能与其它 SOTA 模型媲美,并可在某些指标上达到最佳。如下分析导航地图测试:
有没有可能发展成无线上下文
大多人认为context 会是贯穿 AI 产品发展的一条暗线,context 是否充分同步会直接影响智能应用的用户体验,这包括用户的个性化信息、环境变化信息等各种背景上下文信息。而为了保证 context 充分同步,足够大的上下文窗口就成了大模型必须克服的技术难题。目前,MiniMax 已经在这条路上迈出了重要的一步。
不过,400 万 token 的上下文窗口明显不是终点。他们在技术报告中写道:「我们正在研究更高效的架构,以完全消除 softmax 注意力,这可能使模型能够支持无限的上下文窗口,而不会带来计算开销。」
除此之外,MiniMax 还在 LLM 的基础上训练的视觉语言模型,同样拥有超长的上下文窗口,这也是由 Agent 所面临的任务所决定的。毕竟,在现实生活中,多模态任务远比纯文本任务更常见。