最佳拍档: MiniMax 最新01系列模型：400萬Token上下文、線性注意力、助力AI Agent應用【人工智能解析】

探索AI Agent的未來發展方向！2025年被預測為AI Agent元年，但更長的上下文處理能力成為關鍵。本次我們將剖析 MiniMax 開源的 MiniMax-Text-01 和 MiniMax-VL-01 模型，深入了解其突破性的線性注意力機制 (Lightning Attention)，以及如何處理高達 400 萬 token 的上下文，遠超其他模型。

線性注意力機制 (Lightning Attention): 大幅降低計算複雜度，實現更高效的長序列處理。
混合專家 (MoE) 架构: 將模型劃分為多個專家，動態選擇最佳專家處理任務，提升效率與效能。
數據格式化 (Data-packing): 降低計算浪費，優化長上下文訓練。
卓越的長上下文理解能力: 在長文本學習和實際應用（如翻譯冷門語言）中表現出色。
多模態模型 (MiniMax-VL-01): 整合圖像編碼器與適配器，讓模型理解圖像，為AI Agent進入物理世界鋪路。

一、AI Agent元年与模型需求

大家好，这里是最佳拍档，我是大飞。在2024年年底，众多AI领域的领军人物纷纷大胆预测，2025年将是AI Agent的元年。随着Agent进入更多应用场景，无论是单个Agent工作时产生的记忆，还是多个Agent协作所产生的上下文，都对模型的上下文长度提出了更高要求。

二、MiniMax开源模型发布

1月15日，MiniMax开源了最新的基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。这在业内首次大规模实现了线性注意力机制，大大增加了上下文窗口长度，一次甚至可处理400万的token，是其他模型的20到32倍。MiniMax相信这些模型能为接下来一年Agent的应用爆发助力，并断言传统Transformer架构不再是唯一选择。

三、MiniMax模型技术细节

（一）Transformer架构与自注意力机制

目前大多数领先的大语言模型都基于Transformer架构，其核心机制是自注意力机制Self-Attention。它让模型处理文本时能关注不同位置信息，捕捉复杂语义关系。但自注意力机制计算成本高昂，计算复杂度与输入序列长度呈平方关系（O(n²)），会导致处理长文本时速度慢，训练时消耗大量计算资源和电力。

（二）线性注意力机制

为解决上述问题，研究人员提出多种优化方案，MiniMax在模型中引入了Lightning Attention线性注意力机制。线性注意力机制通过降低计算到线性复杂度，使模型能高效处理长序列数据。此前线性注意力机制多用于学术研究和小规模试验，MiniMax首次实现了大规模训练。

（三）Lightning Attention原理

Lightning Attention基于TransNormer架构改进。TransNormer将传统自注意力机制转换为线性变体，通过“右侧矩阵乘法”将计算复杂度从O(n²)降至O(n)。Lightning Attention是MiniMax在TransNormer基础上进行I/O感知优化的实现。实验表明，它处理长序列时训练速度稳定，在多数下游任务中与softmax注意力机制性能相当，检索任务上表现更好。

（四）Hybrid-lightning策略

为提升模型性能，MiniMax提出Hybrid-lightning策略。每七个使用Lightning Attention的transnormer块后，跟随一个使用softmax注意力的transformer块。此策略既提升计算速度，又利用softmax注意力捕捉复杂语义关系，保证整体性能。

（五）混合专家MoE架构

MiniMax还采用混合专家MoE架构，这是其从2023年夏天开始研发，投入80%算力与研发资源，经历两次失败才成功的成果。MoE架构将模型划分为多个“专家”，每个专家擅长特定任务，推理时根据输入动态选择专家。与传统密集模型相比，MoE架构效率更高，性能更优。

四、模型训练挑战与解决方案

（一）长上下文训练挑战

MiniMax在训练模型时面临诸多挑战，最大的是长上下文训练。对于MoE架构，主要优化目标是降低通信负载，特别是all-to-all（a2a）通信的MoE模型。MiniMax采用基于token分组的重叠方案，设计专家张量并行(ETP)和专家数据并行(EDP)两个进程组，实现存储和计算的最佳平衡。

（二）数据标准化问题

传统将真实训练样本标准化到统一长度的填充方法浪费计算，MiniMax采用数据格式化，将不同样本沿序列维度首尾相连，命名为data-packing，降低计算浪费。

（三）token-drop策略

为提高训练效率，MiniMax采用token-drop策略，给每个专家分配容量限制，达到容量后额外token将被丢弃。

（四）Lightning Attention训练优化

为实现大规模Lightning Attention训练，MiniMax采用四项优化策略：分批内核融合、分离式预填充与解码执行、多级填充、跨步分批矩阵乘法扩展。这些策略使模型在GPU集群上高效运行，在英伟达H20上MFU超过75%，同时保持性能和推理效率。

五、MiniMax-Text-01模型成果

最终，MiniMax打造出拥有4560亿参数的MiniMax-Text-01模型，共32个专家，每个token激活459亿个参数。通过三阶段训练方法，训练上下文窗口达100万token，推理时上下文长度最高可外推到400万token。

六、MiniMax-Text-01性能测试

在常见学术测试集上，MiniMax-Text-01表现与GPT-4o、Claude 3.5 Sonnet等顶尖闭源模型，以及Qwen2.5、DeepSeek v3、Llama 3.1等顶尖开源模型媲美，甚至在某些方面更优。在GPQA Diamond数据集上取得54.4的成绩，超过多数开源指令微调大模型和最新版本的GPT-4o。在MMLU、IFEval和Arena-Hard测试中取得前三名，展示强大知识应用能力和对人类偏好的理解能力。在长上下文理解任务上优势明显，长文本学习能力达SOTA水平，在MTOB基准上表现出色。实际应用中，翻译小众语言Kalamang时能给出与标准答案基本一致的结果，长对话记忆任务中能准确记住细节并回应。

七、MiniMax-VL-01多模态模型

基于MiniMax-Text-01，MiniMax开发了多模态版本MiniMax-VL-01。其思路是在文本模型基础上整合图像编码器和图像适配器，将图像转换为大语言模型能理解的token形式。整体架构符合ViT-MLP-LLM范式，使用303M参数的ViT模型和随机初始化的两层MLP projector。为确保视觉理解能力，MiniMax设计专有数据集并实现多阶段训练策略，最终在各基准上表现与其他SOTA模型媲美，某些指标上达到最佳。

八、01模型的局限性与未来探索

（一）长上下文评估

当前长上下文检索任务评估数据集多为人工或简化场景设计，实际应用中文档分析等长文本推理能力评估有限。MiniMax计划在更现实场景中增强长上下文检索，扩展长上下文推理评估到更广泛任务。

（二）模型架构

模型目前仍保留1/8组件使用传统softmax注意力，MiniMax正研究更高效架构，完全消除softmax注意力，实现无限上下文窗口且无需额外计算开销。

（三）复杂编程任务

当前模型在高级编程任务上性能需改进，因预训练阶段编码数据集有限。

此外，MiniMax还在探索将长上下文能力应用到多模态任务中，毕竟现实生活中多模态任务更常见。随着多模态token加入，AI Agent将逐步进入物理世界。

九、总结与展望

总的来说，MiniMax-01系列的两个模型展示了处理长上下文的卓越性能和潜力。MiniMax创始人闫俊杰表示，下一代人工智能将是无限接近通过图灵测试的Agent，交互自然、触手可及、无处不在。目前MiniMax还未发布推理模型，期待其后续动作。希望本期视频能帮助大家更好理解MiniMax的开源模型及AI Agent的未来发展方向。感谢观看，下期再见！

MiniMax 最新01系列模型：400萬Token上下文、線性注意力、助力AI Agent應用【人工智能解析】

Summary

Quick Abstract

一、AI Agent元年与模型需求

二、MiniMax开源模型发布

三、MiniMax模型技术细节

（一）Transformer架构与自注意力机制

（二）线性注意力机制

（三）Lightning Attention原理

（四）Hybrid-lightning策略

（五）混合专家MoE架构

四、模型训练挑战与解决方案

（一）长上下文训练挑战

（二）数据标准化问题

（三）token-drop策略

（四）Lightning Attention训练优化

五、MiniMax-Text-01模型成果

六、MiniMax-Text-01性能测试

七、MiniMax-VL-01多模态模型

八、01模型的局限性与未来探索

（一）长上下文评估

（二）模型架构

（三）复杂编程任务

九、总结与展望

Quick Actions

More from 最佳拍档

【人工智能】击败大模型推理的非确定性 | Thinking Machines | 批次不变性缺失 | 浮点数非结合性 | 归约化顺序 | 批次不变内核 | RMSNorm | 矩阵乘法 | 注意力机制

【人工智能】AI构建者手册2025 | ICONIQ发布68页报告| AI原生公司 | AI赋能公司 | 代理工作流 | 基础设施 | 市场定价 | 团队结构 | 成本预算 | 内部效率

【商业】算力新锐CoreWeave即将IPO | 挖矿前身 | AI转机 | 151亿美元RPO | 预期能否兑现 | 软硬件实力 | 英伟达深度绑定 | 营收和亏损双增 | 市场竞争和风险

Related Summaries

【人工智能】击败大模型推理的非确定性 | Thinking Machines | 批次不变性缺失 | 浮点数非结合性 | 归约化顺序 | 批次不变内核 | RMSNorm | 矩阵乘法 | 注意力机制

【人工智能】AI构建者手册2025 | ICONIQ发布68页报告| AI原生公司 | AI赋能公司 | 代理工作流 | 基础设施 | 市场定价 | 团队结构 | 成本预算 | 内部效率

【商业】算力新锐CoreWeave即将IPO | 挖矿前身 | AI转机 | 151亿美元RPO | 预期能否兑现 | 软硬件实力 | 英伟达深度绑定 | 营收和亏损双增 | 市场竞争和风险

【英伟达】Tensor Core演进史 | SemiAnalysis | Amdahl定律 | 强、弱缩放 | Volta | Turing | Ampere | Blackwell | 结构化稀疏

【爆料】非营利组织猛爆Sam Altman黑料 | OpenAI Files | 冒充YC董事长 | 涉嫌利益输送 | 架空OpenAI董事会 | 取消投资回报上限 | 隐瞒持股 | 欺骗和隐瞒

【人工智能】击败大模型推理的非确定性 | Thinking Machines | 批次不变性缺失 | 浮点数非结合性 | 归约化顺序 | 批次不变内核 | RMSNorm | 矩阵乘法 | 注意力机制

【人工智能】AI构建者手册2025 | ICONIQ发布68页报告| AI原生公司 | AI赋能公司 | 代理工作流 | 基础设施 | 市场定价 | 团队结构 | 成本预算 | 内部效率

Summarize a New YouTube Video