Video thumbnail for 【英伟达】Tensor Core演进史 | SemiAnalysis | Amdahl定律 | 强、弱缩放 | Volta | Turing | Ampere | Blackwell | 结构化稀疏

NVIDIA Tensor Core演進史:Volta到Blackwell架構深度解析

Summary

Language:

Quick Abstract

探索 NVIDIA Tensor Core 的演進之路!人工智慧的快速發展離不開硬體的強大支撐,NVIDIA Tensor Core 正是其中的佼佼者。本摘要將帶您快速了解 Tensor Core 如何從 Volta 架構一路演進到 Blackwell 架構,突破計算瓶頸,重塑人工智慧計算生態。

Quick Takeaways:

  • Amdahl 定律:了解並行計算加速的限制,即使增加計算資源,串行任務也會限制整體加速。

  • 強縮放與弱縮放:理解在固定問題規模下增加資源的強縮放,以及按比例增加問題和資源的弱縮放。

  • Volta 架構:首次引入 Tensor Core,以半精度矩陣乘累加(HMMA)指令提升深度學習效率。

  • Ampere 架構:引入異步數據複製技術,減少寄存器使用,並支持 BF16 數據格式,加速計算。

  • Hopper 架構:引入線程塊集群和張量內存加速器(TMA),提高數據共享和傳輸效率。

  • Blackwell 架構:採用張量內存(TMEM),大幅減少數據傳輸開銷,並支持更多浮點格式。

NVIDIA 通過持續創新,不斷突破計算瓶頸,為人工智慧領域奠定了堅實的基礎。讓我們一同見證科技的進步!

并行计算基础原理

在当今人工智能浪潮席卷全球的时代,硬件的强大支撑至关重要。在探讨 NVIDIA Tensor Core 的演进之前,了解并行计算的基础原理十分必要。

Amdahl 定律

并行计算中有个重要的 Amdahl 定律,由美国计算机科学家吉恩・阿姆达尔提出。它揭示了并行计算加速的本质,即并行计算的加速效果并非无限制,会受串行部分制约。公式中,大 S 代表并行工作的执行时间,小 p 代表并行的加速比。即便不断增加并行计算资源,若程序存在大量串行任务,整体加速比只能趋近于 1−S,因为串行部分执行时间无法通过并行化减少。

强缩放与弱缩放

并行计算中还有强缩放(Strong Scaling)和弱缩放(Weak Scaling)两个重要概念。强缩放是固定问题规模,增加计算资源以缩短执行时间,加速比由阿姆达尔定律量化。例如计算固定大小矩阵乘法,更多处理器核心并行计算理论上更快,但受串行部分限制。弱缩放则按比例同时增加问题规模和计算资源,目标是保持执行时间不变。像处理数据量翻倍时,增加一倍计算资源,用 4 倍计算资源处理 4 倍大小图像,让处理时间不变,在大数据场景很有用。

数据移动瓶颈

并行计算发展中,数据移动一直是巨大瓶颈。计算单元处理速度亚纳秒级,从动态随机存取存储器(DRAM)访问数据延迟却高达纳秒级,形成“内存墙”(memory wall),大量时间耗在数据读写而非真正计算上。硬件架构师们努力寻找新方法减少数据移动、提高计算效率,NVIDIA Tensor Core 的诞生就是重要成果。

NVIDIA Tensor Core 的演进

Volta 架构:第一代 Tensor Core

2017 年,NVIDIA 推出第一代 Tensor Core,引入 Volta 架构。当时深度学习快速发展,传统计算架构难以满足大量矩阵运算需求。传统计算方式指令开销大,如半精度浮点乘加(HFMA)指令能耗 1.5pJ(皮焦耳),指令开销却达 30pJ。NVIDIA 引入半精度矩阵乘累加(HMMA)指令,这是第一代 Tensor Core 的核心创新。 Volta 架构中,每个流式多处理器(Streaming Multiprocessor,简称 SM)包含 8 个 Tensor Core,支持 4×4×4 的矩阵乘法运算,每个周期每个 SM 提供 1024 FLOPS 的计算能力。采用 warp-scoped MMA(warp 范围的矩阵乘累加模式),8 个线程组成 Quad Pair 协作执行 8×8×4 的矩阵运算。还支持 FP16 输入和 FP32 累加的混合精度训练方式,减少数据存储和传输开销,保证计算精度,提升深度学习训练效率。

Turing 架构:第二代 Tensor Core

Volta 之后的 Turing 架构,其第二代 Tensor Core 在 Volta 基础上增加 INT8 和 INT4 精度支持,拓展低精度计算能力。引入深度学习超采样(DLSS)技术,将深度学习应用到游戏图形领域,标志着 NVIDIA 在 AI 与图形融合方面的探索。张量核心支持新的 warp 级同步 MMA 操作,为后续架构并行计算模式奠定基础。

Ampere 架构:第三代 Tensor Core

2020 年推出的第三代 Tensor Core 基于 Ampere 架构,在多方面重大改进,提升计算性能和效率。关键创新是引入异步数据复制(cp async)技术,之前数据从全局内存加载到计算单元步骤多,占用大量寄存器资源,而异步数据复制技术直接将数据从全局内存加载到共享内存,绕过部分中间环节,减少寄存器使用,提高数据加载效率。 Ampere 架构每个 SM 包含 4 个 Tensor Core,数量比 Volta 架构少,但每个 Tensor Core 性能显著提升,每个周期每个 SM 提供 2048 FLOPS 的计算能力,是 Volta 架构的两倍。MMA 运算升级为 warp 级同步模式,32 个线程协同工作,能处理 16x8x16 的矩阵运算。还支持 BF16 数据格式,数据动态范围与 FP32 相当,存储和计算开销只有 FP32 的一半,成为半精度计算行业标准,提升计算速度和数据处理能力。

Hopper 架构:第四代 Tensor Core

2022 年推出的基于 Hopper 架构的第四代 Tensor Core,性能和功能再次飞跃。引入线程块集群(Thread Block Cluster)概念,这是全新的线程层次结构。传统架构中线程块(CTA)间协作有限,线程块集群允许 CTA 在图形处理集群(GPC)内部协同调度,多个 CTA 共享分布式的共享内存(DSMEM),实现数据高效共享和交换,提升并行计算效率。 为解决数据移动瓶颈,引入张量内存加速器(Tensor Memory Accelerator,TMA),支持批量异步数据传输和多播模式,不占用 L2 缓存和 HBM 大量带宽高效传输数据,处理大规模张量数据时显著减少数据传输延迟,提高计算单元利用率。 矩阵运算方面引入 Warp 组级别的异步 MMA(wgmma),4 个 warp(128 个线程)协作进行矩阵运算,支持更大矩阵形状,如 m64n256k16,操作数直接从共享内存读取,减少数据从全局内存到计算单元的传输开销。还引入 8 位浮点格式,包括 E4M3 和 E5M2,虽计算中使用固定点累加路径,但为保证精度需 CUDA 核心辅助,这种混合计算方式在对精度要求相对较低场景大幅提升计算效率,减少计算资源消耗。

Blackwell 架构:第五代 Tensor Core

2025 年之后推出的基于 Blackwell 架构的第五代 Tensor Core 是革命性的。带来全新关键技术——张量内存(Tensor Memory,简称 TMEM)。之前架构虽优化数据移动,但数据访问效率仍受内存层次结构限制,Blackwell 架构的 Tensor Memory 提供新思路。每个 SM 配备 256KB 专用 Tensor Memory,位于计算单元附近,访问速度快、功耗低。矩阵运算时矩阵 D 可直接常驻其中,减少数据在不同内存层次间的传输开销,提高数据访问效率和计算单元利用率。 除 Tensor Memory,Blackwell 架构还有很多优化和改进。如 CTA Pair 机制允许两个 CTA 共享操作数,降低内存带宽需求;摒弃寄存器存储矩阵,操作数直接位于共享内存和张量内存中,单线程即可发起 MMA 操作(tcgen05 mma);支持 SM 间协作的 MMA.2SM 模式,将 M 矩阵维度翻倍;引入 MXFP8、MXFP6、MXFP4 及 NVFP4 等浮点格式,提供更好精度;还支持卷积运算与权重固定模式,通过收集缓冲区缓存矩阵 B 实现数据重用,提升性能和效率,将为人工智能计算带来新突破,推动深度学习技术发展。

结构化稀疏性的应用与挑战

在 NVIDIA Tensor Core 发展中,结构化稀疏性作为提升计算效率的技术,在不同架构中有不同应用特点与挑战。

Ampere 架构的结构化稀疏性

Ampere 架构推出 2:4 的结构化稀疏性,核心是修剪权重矩阵,每 4 个元素中 2 个为零,压缩非零元素并用元数据索引记录位置,理论上可使 Tensor Core 吞吐量翻倍,内存使用和带宽需求减半。但实际应用中,在 Hopper 架构上未达预期效果,受模型精度保持难度、cuSPARSELt 内核优化不足、TDP 限制等因素影响,GEMM 内核速度实际提升远低于理论值。除中国部分 AI 实验室及 Meta 在 Llama 中的实验性尝试,多数 AI 研究机构倾向聚焦量化与模型蒸馏,导致结构化稀疏性在实际生产推理中应用有限,且缺乏证明其性能优势的公开模型,发展滞后。

Blackwell 架构的结构化稀疏性

Blackwell 架构针对 NVFP4 数据类型引入 4:8 的结构化稀疏性,将 8 个元素划分为 4 对连续元素,要求 2 对非零、2 对为零,与 NVFP4 的子字节特性相关。虽从形式上看比 2:4 更灵活,但机器学习工程师在修剪过程中仍需平衡模型精度。这种结合理论上可优化计算效率,但实际部署中仍面临与前代相似的精度保持和工程实现挑战。

总结与展望

回顾 NVIDIA Tensor Core 从 Volta 到 Blackwell 的演进历程,能清晰看到技术创新的力量。每一代都在突破计算瓶颈、优化数据处理流程、提升计算性能。从最初的半精度矩阵乘累加指令到如今的专用张量内存,NVIDIA 通过持续创新推动自身硬件架构发展,为整个人工智能领域奠定基础。未来,随着人工智能技术发展,对计算能力需求持续增长,期待 NVIDIA 带来更多创新技术和架构,为人工智能发展提供强大动力。感谢观看本期视频,下期再见。

Was this summary helpful?

Quick Actions

Watch on YouTube

Related Summaries

Summarize a New YouTube Video

Enter a YouTube video URL below to get a quick summary and key takeaways.