Video thumbnail for 【人工智能】Deepseek V3降低成本秘诀大公开 | 梁文锋再署名新论文 | 软硬协同的未来 | FP8 | MLA | MoE模型 | 专家并行EP | 多token预测MTP | MPFT

DeepSeek V3 成本降低秘訣:梁文鋒署名論文深度解析 (FP8/MoE/專家並行)

Summary

Language:

Quick Abstract

探索 DeepSeek-V3 的硬件與模型設計創新,這篇論文深入剖析了 DeepSeek 如何突破硬件瓶頸,實現低成本的大規模訓練和推理。創始人梁文鋒再次現身合著名單,引人注目。本文將帶您解讀 DeepSeek-V3 在內存效率、成本效益及推理速度上的關鍵突破。

Quick Takeaways:

  • 内存效率: 採用 FP8 降低精度、多頭潛在注意力(MLA)減少 KV 緩存大小,有效緩解內存壓力。

  • 成本效益: DeepSeek MoE 模型僅激活部分參數,大幅降低訓練和本地部署成本,更適合個人電腦使用。

  • 推理速度: 透過重疊計算和通信、高帶寬縱向擴展網絡和多 token 預測(MTP)框架,顯著提升模型推理速度。

  • 網路架構: 採用多平面雙層胖樹(MPFT)橫向擴展網絡,降低網路成本。

  • 未來展望: 針對 AI 基礎設施提出六大挑戰和解決方案,涵蓋健壯性、互連、網路、計算及記憶體等核心領域。

论文发布与DeepSeek创始人

大家好,这里是最佳拍档,我是大飞。14号下午,DeepSeek团队发布了一篇新论文,以DeepSeek-V3模型为代表,深入解读了DeepSeek在硬件架构和模型设计方面的关键创新。DeepSeek的创始人兼CEO梁文锋,这次又出现在了合著名单之中,按姓名首字母顺序排在倒数第五位。

DeepSeek V3的效率突破与新论文要点

DeepSeek V3刚发布时,实现了多项令人瞩目的效率突破。除了V3技术论文中提到的各种技术创新,大家也好奇在基础设施和硬件上做了哪些工作,相信今天这篇论文能给答案。

解决训练扩展的三个核心挑战

论文开篇提到,DeepSeek-V3的关键创新旨在解决训练扩展中的三个核心挑战:内存效率、成本效益和推理速度。

内存效率

现在大语言模型越来越庞大,存储空间需求激增,注意力机制产生大量临时KV缓存数据,占用大量显卡内存。DeepSeek采取两个优化手段:

  • 从源头优化内存:降低精度,FP8相比BF16可将内存消耗降低一半,缓解内存墙挑战,再通过精细量化如分块压缩保持精度。

  • 使用多头潜在注意力MLA:减少KV缓存大小。大模型推理多轮对话时,KV缓存避免重复计算,但有内存限制。MLA通过投影矩阵将所有注意力头的KV表示压缩成更小潜在向量,与模型联合训练,推理时只缓存潜在向量,显著减少内存消耗。

成本效益

训练超大规模模型需海量计算资源,传统“稠密模型”计算成本极高。DeepSeek开发DeepSeek MoE模型提高性价比,优势有二:

  • 减少训练计算要求,降低成本:MoE模型允许参数总数急剧增加,同时保持计算要求适中。如DeepSeek-V2有236B参数,每个token只激活21B参数;DeepSeek-V3扩展到671B参数,每个token激活量仅37B。而稠密模型推理时所有参数都要活动。

  • 个人使用和本地部署优势:个性化Agent快速发展,MoE模型单请求场景优势独特。每个请求只激活参数子集,内存和计算需求大大减少。如DeepSeek-V2推理时只激活21B参数,配备AI芯片的个人电脑能实现每秒近20个token输出的TPS,甚至两倍,成本约10000美元。类似能力的稠密模型在类似硬件上通常只能达到个位数的TPS,MoE架构适合硬件资源有限的本地部署和个人用户。

推理速度

多个GPU一起训练时,数据交换产生延迟,拖慢整体训练速度,长文本或实时响应时更明显。DeepSeek采用多种技术提高推理速度:

  • 重叠计算和通信:推理速度包括系统范围最大吞吐量和单个请求延迟。DeepSeek-V3构建成双微批处理重叠,将通信延迟与计算重叠。将MLA和MoE计算解耦成两个阶段,一个微批处理执行计算时,另一个执行相应调度通信,流水线化方法实现全对全通信与进行中计算无缝重叠,充分利用GPU资源。生产中还采用预填充-解码分离架构,将大批量预填充和延迟敏感的解码请求分配给不同专家并行组处理。

  • 引入高带宽纵向扩展网络:MoE推理速度上限由互连带宽决定。采用高带宽互连如GB200 NVL72,能显著减少总推理时间,理论上突破每秒1200个token上限。选用InfiniBand GPU Direct Async(IBGDA),允许GPU直接填充WR内容并写入RDMA的MMIO地址,消除GPU-CPU通信延迟开销,发送方还可利用GPU并行线程分配工作负载,避免小包数据瓶颈。

  • 多token预测框架:DeepSeek-V3引入多token预测MTP框架,增强模型性能同时提高推理速度。传统自回归语言模型逐个生成token,推理速度受限。MTP框架引入多个轻量级预测模块,共享上下文信息但各自独立生成token,一次推理步骤生成多个token,再通过并行验证确定合理候选token。实验数据显示,MTP模块预测下一个token接受率高达80%到90%,显著提高推理速度。

降低集群网络成本与互连优化

DeepSeek采用多平面双层胖树MPFT的横向扩展网络,取代传统三层胖树拓扑结构,将成本降低40%以上。每个节点配备8台GPU和8个IB网卡,每个GPU-网卡对分配到不同网络平面,还配备400 Gbps以太网RoCE网卡连接单独存储网络平面,访问自研3FS开源分布式文件系统。横向扩展网络使用64端口400G IB交换机,理论上最多支持16,384台GPU,保留双层网络成本和延迟优势,受政策和监管限制,最终部署2048台GPU。

互连优化方面,DeepSeek团队提出硬件感知并行策略,摒弃传统张量并行(TP),采用流水线并行(PP)和专家并行(EP),配合自主研发的DeepEP开源库,实现通信效率飞跃。

下一代AI基础设施的挑战与解决方案

针对当前硬件痛点,DeepSeek提出下一代AI基础设施的六大挑战和解决方案:

  • 健壮性优先:现有硬件对GPU故障、内存静默错误等缺乏有效检测,大规模训练中断风险高。硬件需引入高级错误检测机制,如基于校验和的验证或硬件加速的冗余检查,硬件供应商应提供全面诊断工具包,让用户验证系统完整性并主动识别潜在静默数据损坏。

  • 颠覆互连架构:传统CPU协调计算等不可或缺,但面临关键瓶颈。CPU与GPU之间的PCIe接口在大规模参数等传输时是带宽瓶颈,未来系统应采用直接CPU-GPU互连,如NVLink或Infinity Fabric,或集成CPU和GPU到扩展域消除节点内瓶颈。维持高数据传输速率需极高内存带宽,延迟敏感任务需极高单核CPU性能,现代AI工作负载需每个GPU配备足够CPU核心,基于小芯片的架构还需额外核心支持缓存感知的工作负载分区和隔离。

  • 智能网络升级:未来互连需同时优先考虑低延迟和智能网络。集成硅光子学实现更高带宽扩展性和能效,基于信用的流量控制确保无损数据传输,部署先进端点驱动拥塞控制算法主动调节注入速率避免异常拥塞场景,标准化动态路由方案监控实时网络状况并智能重新分配流量,部署自愈协议等增强网络健壮性。

  • 通信顺序的“硬件化”:节点间通信使用load/store内存语义高效且便于编程,但受内存顺序阻碍。DeepSeek主张通过硬件支持为内存语义通信提供内置顺序保证,在编程层和接收方硬件层面强制执行,实现有序传递无需额外开销。

  • 网络计算融合:MoE模型分发与组合阶段存在网络优化空间,DeepSeek建议在网络硬件中集成自动分组复制、硬件级归约等功能,支持LogFMT压缩降低通信带宽需求。

  • 内存架构重构:模型规模增长速度超过高带宽内存HBM技术进步速度,造成内存瓶颈。DeepSeek推荐采用DRAM堆叠加速器,利用先进3D堆叠技术垂直集成DRAM die在逻辑die顶部,实现极高内存带宽、超低延迟和实用内存容量,还提到晶圆级系统(SoW),认为晶圆级集成能最大限度提高计算密度和内存带宽,满足超大规模模型需求。

以上就是这篇DeepSeek V3最新论文的主要内容,希望对大家了解模型技术实现有所帮助,感兴趣可阅读原文。如今AI产业进入软硬件深度协同时代,DeepSeek通过将硬件特性融入模型设计,反向驱动硬件升级,展现了软硬件良性循环,期待DeepSeek R2公布带来更多技术创新和进步。感谢收看本期视频,下期再见。

Was this summary helpful?

Quick Actions

Watch on YouTube

Summarize a New YouTube Video

Enter a YouTube video URL below to get a quick summary and key takeaways.