最佳拍档: NVIDIA Tensor Core演進史：Volta到Blackwell架構深度解析

探索 NVIDIA Tensor Core 的演進之路！人工智慧的快速發展離不開硬體的強大支撐，NVIDIA Tensor Core 正是其中的佼佼者。本摘要將帶您快速了解 Tensor Core 如何從 Volta 架構一路演進到 Blackwell 架構，突破計算瓶頸，重塑人工智慧計算生態。

Quick Takeaways:

Amdahl 定律：了解並行計算加速的限制，即使增加計算資源，串行任務也會限制整體加速。
強縮放與弱縮放：理解在固定問題規模下增加資源的強縮放，以及按比例增加問題和資源的弱縮放。
Volta 架構：首次引入 Tensor Core，以半精度矩陣乘累加（HMMA）指令提升深度學習效率。
Ampere 架構：引入異步數據複製技術，減少寄存器使用，並支持 BF16 數據格式，加速計算。
Hopper 架構：引入線程塊集群和張量內存加速器（TMA），提高數據共享和傳輸效率。
Blackwell 架構：採用張量內存（TMEM），大幅減少數據傳輸開銷，並支持更多浮點格式。

NVIDIA 通過持續創新，不斷突破計算瓶頸，為人工智慧領域奠定了堅實的基礎。讓我們一同見證科技的進步！

并行计算基础原理

在当今人工智能浪潮席卷全球的时代，硬件的强大支撑至关重要。在探讨 NVIDIA Tensor Core 的演进之前，了解并行计算的基础原理十分必要。

Amdahl 定律

并行计算中有个重要的 Amdahl 定律，由美国计算机科学家吉恩・阿姆达尔提出。它揭示了并行计算加速的本质，即并行计算的加速效果并非无限制，会受串行部分制约。公式中，大 S 代表并行工作的执行时间，小 p 代表并行的加速比。即便不断增加并行计算资源，若程序存在大量串行任务，整体加速比只能趋近于 1−S，因为串行部分执行时间无法通过并行化减少。

强缩放与弱缩放

并行计算中还有强缩放（Strong Scaling）和弱缩放（Weak Scaling）两个重要概念。强缩放是固定问题规模，增加计算资源以缩短执行时间，加速比由阿姆达尔定律量化。例如计算固定大小矩阵乘法，更多处理器核心并行计算理论上更快，但受串行部分限制。弱缩放则按比例同时增加问题规模和计算资源，目标是保持执行时间不变。像处理数据量翻倍时，增加一倍计算资源，用 4 倍计算资源处理 4 倍大小图像，让处理时间不变，在大数据场景很有用。

数据移动瓶颈

并行计算发展中，数据移动一直是巨大瓶颈。计算单元处理速度亚纳秒级，从动态随机存取存储器（DRAM）访问数据延迟却高达纳秒级，形成“内存墙”（memory wall），大量时间耗在数据读写而非真正计算上。硬件架构师们努力寻找新方法减少数据移动、提高计算效率，NVIDIA Tensor Core 的诞生就是重要成果。

NVIDIA Tensor Core 的演进

Volta 架构：第一代 Tensor Core

2017 年，NVIDIA 推出第一代 Tensor Core，引入 Volta 架构。当时深度学习快速发展，传统计算架构难以满足大量矩阵运算需求。传统计算方式指令开销大，如半精度浮点乘加（HFMA）指令能耗 1.5pJ（皮焦耳），指令开销却达 30pJ。NVIDIA 引入半精度矩阵乘累加（HMMA）指令，这是第一代 Tensor Core 的核心创新。 Volta 架构中，每个流式多处理器（Streaming Multiprocessor，简称 SM）包含 8 个 Tensor Core，支持 4×4×4 的矩阵乘法运算，每个周期每个 SM 提供 1024 FLOPS 的计算能力。采用 warp-scoped MMA（warp 范围的矩阵乘累加模式），8 个线程组成 Quad Pair 协作执行 8×8×4 的矩阵运算。还支持 FP16 输入和 FP32 累加的混合精度训练方式，减少数据存储和传输开销，保证计算精度，提升深度学习训练效率。

Turing 架构：第二代 Tensor Core

Volta 之后的 Turing 架构，其第二代 Tensor Core 在 Volta 基础上增加 INT8 和 INT4 精度支持，拓展低精度计算能力。引入深度学习超采样（DLSS）技术，将深度学习应用到游戏图形领域，标志着 NVIDIA 在 AI 与图形融合方面的探索。张量核心支持新的 warp 级同步 MMA 操作，为后续架构并行计算模式奠定基础。

Ampere 架构：第三代 Tensor Core

2020 年推出的第三代 Tensor Core 基于 Ampere 架构，在多方面重大改进，提升计算性能和效率。关键创新是引入异步数据复制（cp async）技术，之前数据从全局内存加载到计算单元步骤多，占用大量寄存器资源，而异步数据复制技术直接将数据从全局内存加载到共享内存，绕过部分中间环节，减少寄存器使用，提高数据加载效率。 Ampere 架构每个 SM 包含 4 个 Tensor Core，数量比 Volta 架构少，但每个 Tensor Core 性能显著提升，每个周期每个 SM 提供 2048 FLOPS 的计算能力，是 Volta 架构的两倍。MMA 运算升级为 warp 级同步模式，32 个线程协同工作，能处理 16x8x16 的矩阵运算。还支持 BF16 数据格式，数据动态范围与 FP32 相当，存储和计算开销只有 FP32 的一半，成为半精度计算行业标准，提升计算速度和数据处理能力。

Hopper 架构：第四代 Tensor Core

2022 年推出的基于 Hopper 架构的第四代 Tensor Core，性能和功能再次飞跃。引入线程块集群（Thread Block Cluster）概念，这是全新的线程层次结构。传统架构中线程块（CTA）间协作有限，线程块集群允许 CTA 在图形处理集群（GPC）内部协同调度，多个 CTA 共享分布式的共享内存（DSMEM），实现数据高效共享和交换，提升并行计算效率。为解决数据移动瓶颈，引入张量内存加速器（Tensor Memory Accelerator，TMA），支持批量异步数据传输和多播模式，不占用 L2 缓存和 HBM 大量带宽高效传输数据，处理大规模张量数据时显著减少数据传输延迟，提高计算单元利用率。矩阵运算方面引入 Warp 组级别的异步 MMA（wgmma），4 个 warp（128 个线程）协作进行矩阵运算，支持更大矩阵形状，如 m64n256k16，操作数直接从共享内存读取，减少数据从全局内存到计算单元的传输开销。还引入 8 位浮点格式，包括 E4M3 和 E5M2，虽计算中使用固定点累加路径，但为保证精度需 CUDA 核心辅助，这种混合计算方式在对精度要求相对较低场景大幅提升计算效率，减少计算资源消耗。

Blackwell 架构：第五代 Tensor Core

2025 年之后推出的基于 Blackwell 架构的第五代 Tensor Core 是革命性的。带来全新关键技术——张量内存（Tensor Memory，简称 TMEM）。之前架构虽优化数据移动，但数据访问效率仍受内存层次结构限制，Blackwell 架构的 Tensor Memory 提供新思路。每个 SM 配备 256KB 专用 Tensor Memory，位于计算单元附近，访问速度快、功耗低。矩阵运算时矩阵 D 可直接常驻其中，减少数据在不同内存层次间的传输开销，提高数据访问效率和计算单元利用率。除 Tensor Memory，Blackwell 架构还有很多优化和改进。如 CTA Pair 机制允许两个 CTA 共享操作数，降低内存带宽需求；摒弃寄存器存储矩阵，操作数直接位于共享内存和张量内存中，单线程即可发起 MMA 操作（tcgen05 mma）；支持 SM 间协作的 MMA.2SM 模式，将 M 矩阵维度翻倍；引入 MXFP8、MXFP6、MXFP4 及 NVFP4 等浮点格式，提供更好精度；还支持卷积运算与权重固定模式，通过收集缓冲区缓存矩阵 B 实现数据重用，提升性能和效率，将为人工智能计算带来新突破，推动深度学习技术发展。

结构化稀疏性的应用与挑战

在 NVIDIA Tensor Core 发展中，结构化稀疏性作为提升计算效率的技术，在不同架构中有不同应用特点与挑战。

Ampere 架构的结构化稀疏性

Ampere 架构推出 2:4 的结构化稀疏性，核心是修剪权重矩阵，每 4 个元素中 2 个为零，压缩非零元素并用元数据索引记录位置，理论上可使 Tensor Core 吞吐量翻倍，内存使用和带宽需求减半。但实际应用中，在 Hopper 架构上未达预期效果，受模型精度保持难度、cuSPARSELt 内核优化不足、TDP 限制等因素影响，GEMM 内核速度实际提升远低于理论值。除中国部分 AI 实验室及 Meta 在 Llama 中的实验性尝试，多数 AI 研究机构倾向聚焦量化与模型蒸馏，导致结构化稀疏性在实际生产推理中应用有限，且缺乏证明其性能优势的公开模型，发展滞后。

Blackwell 架构的结构化稀疏性

Blackwell 架构针对 NVFP4 数据类型引入 4:8 的结构化稀疏性，将 8 个元素划分为 4 对连续元素，要求 2 对非零、2 对为零，与 NVFP4 的子字节特性相关。虽从形式上看比 2:4 更灵活，但机器学习工程师在修剪过程中仍需平衡模型精度。这种结合理论上可优化计算效率，但实际部署中仍面临与前代相似的精度保持和工程实现挑战。

总结与展望

回顾 NVIDIA Tensor Core 从 Volta 到 Blackwell 的演进历程，能清晰看到技术创新的力量。每一代都在突破计算瓶颈、优化数据处理流程、提升计算性能。从最初的半精度矩阵乘累加指令到如今的专用张量内存，NVIDIA 通过持续创新推动自身硬件架构发展，为整个人工智能领域奠定基础。未来，随着人工智能技术发展，对计算能力需求持续增长，期待 NVIDIA 带来更多创新技术和架构，为人工智能发展提供强大动力。感谢观看本期视频，下期再见。

NVIDIA Tensor Core演進史：Volta到Blackwell架構深度解析

Summary

Quick Abstract

并行计算基础原理

Amdahl 定律

强缩放与弱缩放

数据移动瓶颈

NVIDIA Tensor Core 的演进

Volta 架构：第一代 Tensor Core

Turing 架构：第二代 Tensor Core

Ampere 架构：第三代 Tensor Core

Hopper 架构：第四代 Tensor Core

Blackwell 架构：第五代 Tensor Core

结构化稀疏性的应用与挑战

Ampere 架构的结构化稀疏性

Blackwell 架构的结构化稀疏性

总结与展望

Quick Actions

More from 最佳拍档

【人工智能】击败大模型推理的非确定性 | Thinking Machines | 批次不变性缺失 | 浮点数非结合性 | 归约化顺序 | 批次不变内核 | RMSNorm | 矩阵乘法 | 注意力机制

【人工智能】AI构建者手册2025 | ICONIQ发布68页报告| AI原生公司 | AI赋能公司 | 代理工作流 | 基础设施 | 市场定价 | 团队结构 | 成本预算 | 内部效率

【商业】算力新锐CoreWeave即将IPO | 挖矿前身 | AI转机 | 151亿美元RPO | 预期能否兑现 | 软硬件实力 | 英伟达深度绑定 | 营收和亏损双增 | 市场竞争和风险

Related Summaries

【人工智能】击败大模型推理的非确定性 | Thinking Machines | 批次不变性缺失 | 浮点数非结合性 | 归约化顺序 | 批次不变内核 | RMSNorm | 矩阵乘法 | 注意力机制

【人工智能】AI构建者手册2025 | ICONIQ发布68页报告| AI原生公司 | AI赋能公司 | 代理工作流 | 基础设施 | 市场定价 | 团队结构 | 成本预算 | 内部效率

【商业】算力新锐CoreWeave即将IPO | 挖矿前身 | AI转机 | 151亿美元RPO | 预期能否兑现 | 软硬件实力 | 英伟达深度绑定 | 营收和亏损双增 | 市场竞争和风险

【爆料】非营利组织猛爆Sam Altman黑料 | OpenAI Files | 冒充YC董事长 | 涉嫌利益输送 | 架空OpenAI董事会 | 取消投资回报上限 | 隐瞒持股 | 欺骗和隐瞒

【人工智能】软件3.0时代到来 | Andrej Karpathy | 软件的三个阶段 | 大模型是操作系统 | 早期操作系统之争 | 局限性 | 部分自治应用 | 双向奔赴 | 可靠性鸿沟

【人工智能】击败大模型推理的非确定性 | Thinking Machines | 批次不变性缺失 | 浮点数非结合性 | 归约化顺序 | 批次不变内核 | RMSNorm | 矩阵乘法 | 注意力机制

【人工智能】AI构建者手册2025 | ICONIQ发布68页报告| AI原生公司 | AI赋能公司 | 代理工作流 | 基础设施 | 市场定价 | 团队结构 | 成本预算 | 内部效率

Summarize a New YouTube Video