Video thumbnail for 【人工智能】Minimax推出最新基础模型01系列 | Text-01 | VL-01 | 首次大规模线性注意力 | 400万token上下文窗口 | 闪电注意力 | MoE | 助力Agent应用

MiniMax 最新01系列模型:400萬Token上下文、線性注意力、助力AI Agent應用【人工智能解析】

Summary

Language:

Quick Abstract

探索AI Agent的未來發展方向!2025年被預測為AI Agent元年,但更長的上下文處理能力成為關鍵。本次我們將剖析 MiniMax 開源的 MiniMax-Text-01 和 MiniMax-VL-01 模型,深入了解其突破性的線性注意力機制 (Lightning Attention),以及如何處理高達 400 萬 token 的上下文,遠超其他模型。

  • 線性注意力機制 (Lightning Attention): 大幅降低計算複雜度,實現更高效的長序列處理。

  • 混合專家 (MoE) 架构: 將模型劃分為多個專家,動態選擇最佳專家處理任務,提升效率與效能。

  • 數據格式化 (Data-packing): 降低計算浪費,優化長上下文訓練。

  • 卓越的長上下文理解能力: 在長文本學習和實際應用(如翻譯冷門語言)中表現出色。

  • 多模態模型 (MiniMax-VL-01): 整合圖像編碼器與適配器,讓模型理解圖像,為AI Agent進入物理世界鋪路。

一、AI Agent元年与模型需求

大家好,这里是最佳拍档,我是大飞。在2024年年底,众多AI领域的领军人物纷纷大胆预测,2025年将是AI Agent的元年。随着Agent进入更多应用场景,无论是单个Agent工作时产生的记忆,还是多个Agent协作所产生的上下文,都对模型的上下文长度提出了更高要求。

二、MiniMax开源模型发布

1月15日,MiniMax开源了最新的基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。这在业内首次大规模实现了线性注意力机制,大大增加了上下文窗口长度,一次甚至可处理400万的token,是其他模型的20到32倍。MiniMax相信这些模型能为接下来一年Agent的应用爆发助力,并断言传统Transformer架构不再是唯一选择。

三、MiniMax模型技术细节

(一)Transformer架构与自注意力机制

目前大多数领先的大语言模型都基于Transformer架构,其核心机制是自注意力机制Self-Attention。它让模型处理文本时能关注不同位置信息,捕捉复杂语义关系。但自注意力机制计算成本高昂,计算复杂度与输入序列长度呈平方关系(O(n²)),会导致处理长文本时速度慢,训练时消耗大量计算资源和电力。

(二)线性注意力机制

为解决上述问题,研究人员提出多种优化方案,MiniMax在模型中引入了Lightning Attention线性注意力机制。线性注意力机制通过降低计算到线性复杂度,使模型能高效处理长序列数据。此前线性注意力机制多用于学术研究和小规模试验,MiniMax首次实现了大规模训练。

(三)Lightning Attention原理

Lightning Attention基于TransNormer架构改进。TransNormer将传统自注意力机制转换为线性变体,通过“右侧矩阵乘法”将计算复杂度从O(n²)降至O(n)。Lightning Attention是MiniMax在TransNormer基础上进行I/O感知优化的实现。实验表明,它处理长序列时训练速度稳定,在多数下游任务中与softmax注意力机制性能相当,检索任务上表现更好。

(四)Hybrid-lightning策略

为提升模型性能,MiniMax提出Hybrid-lightning策略。每七个使用Lightning Attention的transnormer块后,跟随一个使用softmax注意力的transformer块。此策略既提升计算速度,又利用softmax注意力捕捉复杂语义关系,保证整体性能。

(五)混合专家MoE架构

MiniMax还采用混合专家MoE架构,这是其从2023年夏天开始研发,投入80%算力与研发资源,经历两次失败才成功的成果。MoE架构将模型划分为多个“专家”,每个专家擅长特定任务,推理时根据输入动态选择专家。与传统密集模型相比,MoE架构效率更高,性能更优。

四、模型训练挑战与解决方案

(一)长上下文训练挑战

MiniMax在训练模型时面临诸多挑战,最大的是长上下文训练。对于MoE架构,主要优化目标是降低通信负载,特别是all-to-all(a2a)通信的MoE模型。MiniMax采用基于token分组的重叠方案,设计专家张量并行(ETP)和专家数据并行(EDP)两个进程组,实现存储和计算的最佳平衡。

(二)数据标准化问题

传统将真实训练样本标准化到统一长度的填充方法浪费计算,MiniMax采用数据格式化,将不同样本沿序列维度首尾相连,命名为data-packing,降低计算浪费。

(三)token-drop策略

为提高训练效率,MiniMax采用token-drop策略,给每个专家分配容量限制,达到容量后额外token将被丢弃。

(四)Lightning Attention训练优化

为实现大规模Lightning Attention训练,MiniMax采用四项优化策略:分批内核融合、分离式预填充与解码执行、多级填充、跨步分批矩阵乘法扩展。这些策略使模型在GPU集群上高效运行,在英伟达H20上MFU超过75%,同时保持性能和推理效率。

五、MiniMax-Text-01模型成果

最终,MiniMax打造出拥有4560亿参数的MiniMax-Text-01模型,共32个专家,每个token激活459亿个参数。通过三阶段训练方法,训练上下文窗口达100万token,推理时上下文长度最高可外推到400万token。

六、MiniMax-Text-01性能测试

在常见学术测试集上,MiniMax-Text-01表现与GPT-4o、Claude 3.5 Sonnet等顶尖闭源模型,以及Qwen2.5、DeepSeek v3、Llama 3.1等顶尖开源模型媲美,甚至在某些方面更优。在GPQA Diamond数据集上取得54.4的成绩,超过多数开源指令微调大模型和最新版本的GPT-4o。在MMLU、IFEval和Arena-Hard测试中取得前三名,展示强大知识应用能力和对人类偏好的理解能力。在长上下文理解任务上优势明显,长文本学习能力达SOTA水平,在MTOB基准上表现出色。实际应用中,翻译小众语言Kalamang时能给出与标准答案基本一致的结果,长对话记忆任务中能准确记住细节并回应。

七、MiniMax-VL-01多模态模型

基于MiniMax-Text-01,MiniMax开发了多模态版本MiniMax-VL-01。其思路是在文本模型基础上整合图像编码器和图像适配器,将图像转换为大语言模型能理解的token形式。整体架构符合ViT-MLP-LLM范式,使用303M参数的ViT模型和随机初始化的两层MLP projector。为确保视觉理解能力,MiniMax设计专有数据集并实现多阶段训练策略,最终在各基准上表现与其他SOTA模型媲美,某些指标上达到最佳。

八、01模型的局限性与未来探索

(一)长上下文评估

当前长上下文检索任务评估数据集多为人工或简化场景设计,实际应用中文档分析等长文本推理能力评估有限。MiniMax计划在更现实场景中增强长上下文检索,扩展长上下文推理评估到更广泛任务。

(二)模型架构

模型目前仍保留1/8组件使用传统softmax注意力,MiniMax正研究更高效架构,完全消除softmax注意力,实现无限上下文窗口且无需额外计算开销。

(三)复杂编程任务

当前模型在高级编程任务上性能需改进,因预训练阶段编码数据集有限。

此外,MiniMax还在探索将长上下文能力应用到多模态任务中,毕竟现实生活中多模态任务更常见。随着多模态token加入,AI Agent将逐步进入物理世界。

九、总结与展望

总的来说,MiniMax-01系列的两个模型展示了处理长上下文的卓越性能和潜力。MiniMax创始人闫俊杰表示,下一代人工智能将是无限接近通过图灵测试的Agent,交互自然、触手可及、无处不在。目前MiniMax还未发布推理模型,期待其后续动作。希望本期视频能帮助大家更好理解MiniMax的开源模型及AI Agent的未来发展方向。感谢观看,下期再见!

Was this summary helpful?

Quick Actions

Watch on YouTube

Summarize a New YouTube Video

Enter a YouTube video URL below to get a quick summary and key takeaways.