Video thumbnail for 中国人工智能|DeepSeek|阿里巴巴|已经是全球顶尖的AI实验室

中美AI頂尖對決:DeepSeek R1如何突圍?阿里巴巴達摩院領先開源模型!

Summary

Language:

Quick Abstract

想了解中美人工智能發展的最新戰況嗎?AI技術日新月異,中美兩國在AI領域的競爭也日益激烈。本文深入剖析Artificial Analysis的最新報告,聚焦中國與美國在AI模型、開源策略以及技術趨勢上的消長。解讀DeepSeek R1的崛起,剖析其如何縮小與OpenAI的差距,並深入探討AI模型訓練背後的數據來源,引發您對AI發展的深度思考。

Quick Takeaways:

  • 中美頂尖AI模型智能差距大幅縮小,由一年多縮短至三個月內。

  • 中國在開源模型領域取得領先地位,DeepSeek R1功不可沒。

  • DeepSeek R1的突破歸功於強化學習(RL)的優化及推理能力的提升。

  • AI模型訓練數據來源引發關注,頂尖模型間可能存在互相學習的情況。

  • 推理模型、混合專家架構(MOE)及多模態AI是當前AI領域的重要發展趨勢。

本文帶您了解AI競賽的最新動態,剖析 DeepSeek R1 的成功因素,並探討AI發展的未來方向。

引言

各位朋友,欢迎收听。人工智能领域发展迅猛,中美之间的竞争更是日新月异。许多人好奇两者差距有多大,最新突破是什么。今天我们将依据独立AI标准测试和调查提供商Artificial Analysis的报告深入探讨。

节目介绍

在深入探讨前,先介绍一下,这是WOW的YouTube视频频道制作的音频播客。若感兴趣,可在YouTube搜索addwow.insight,找到并订阅。其视频内容更丰富,信息量更大。

主要内容

中美AI模型对比

首先,我们来看中美AI模型的最新对比,特别是在智能水平方面。Artificial Analysis在2025年第二季度的报告中指出,中美顶级AI模型的智能水平差距显著缩小。原本超过一年的差距突然缩短至不到三个月。这一结论基于名为Artificial Analysis的评估系统,该系统综合了七项高难度评估标准,如衡量大规模多任务语言理解能力的MLLU Pro、针对研究生复杂推理的GPQA Diamond、综合推理测试AMME Mathematics、人文综合考试Humanities Last Exam以及评估代码生成能力的Live Code Bench。通过该指数评估发现,当时OpenAI的最新模型O3E与DeepSeq的2025年5月R1版本在综合指数上得分非常接近,换算成时间差距不到三个月。这直接挑战了自ChatGPT问世以来,大家普遍认为美国尤其是OpenAI在该领域大幅领先的观点。

开源模型领域

在开源模型领域,情况似乎相反,中国取得了领先地位。这一变化发生在2024年11月,标志性事件是阿里巴巴当时发布了名为QLVOQ的模型,其32B参数预览版超过了Meta当时的旗舰开源模型Lama 3.1的405B参数的Artificial Analysis智能指数。报告认为,从那时起,开源模型智能的最高点从美国转移到了中国。造成这一现象的最重要原因是战略差异,中国顶尖AI实验室如DeepSeq AI和阿里巴巴倾向于选择最强大甚至旗舰模型开源。开源模型的核心是大量参数,全权重开源意味着实验室发布这些核心参数文件,任何人都可下载使用、进行二次开发或微调。而美国的几大巨头如OpenAI、Anthropic和Google,虽会发布一些研究结果或API,但通常会保护其最先进和强大的模型,如GPD 4.0、Cloud 3 Opus和Gemline Ultra Pro。DeepSeq R1在开源革命中扮演了重要角色,其2020年1月发布的版本是第一个能与当时OpenAI的强大模型O1竞争的开源模型,2025年5月的R1052版本是当时世界上最智能的开源模型。

DeepSeq R1模型

DeepSeq R1在近期AI领域表现亮眼,其2025年5月的更新带来了显著的能力飞跃。在Artificial Analysis的AI指数上,DeepSeq R1从之前的约60分提升到68分,甚至能与OpenAI从O1到O3的重大升级相媲美。在多项关键标准测试中,DeepSeq R1的得分都有大幅提升,如在AMI-E数学测试中提高了21分,在LiveCodeBench代码生成测试中提高了15分,在GPQA科学推理测试中提高了10分,在人文综合考试中提高了6分。更新后,DeepSeq在Artificial Analysis的全球AI实验室排名中升至第二,超过了XAI、Meta、Anthropic等,甚至优于Google的旗舰模型Gemini 2.5 Pro。

DeepSeq R1性能大幅提升的核心在于后训练阶段对强化学习(RL)的应用和优化。强化学习通过试错和奖励机制让模型学习,使模型输出更符合人类偏好或在特定任务上表现更好。与大规模预训练相比,后训练阶段的微调优化在计算上更高效,成本更低,为整体计算资源不如OpenAI或Google的实验提供了实现显著性能提升的经济高效路径。

此外,报告还发现DeepSeq R1新版本在完成Artificial Analysis时消耗的token增加了约40%,这意味着模型在生成最终答案前思考得更深、时间更长,这是提高模型在复杂推理任务中性能的重要因素。同时,R1的token使用量仍比同级别Gemini 2.5 Pro少约30%,这反映了不同模型在推理深度和效率上的平衡与差异。

在编码能力方面,DeepSeq R1新版本在Artificial Analysis的编码能力指数上已与Gemini 2.5 Pro持平,仅与OpenAI的O4-mini混合版本和O3相似,达到了非常顶尖的水平。

其他重要趋势

除了DeepSeq R1,Artificial Analysis的报告还揭示了AI领域的其他关键趋势。

  • 推理模型:推理模型是推动智能潜力的主导力量,会在内部思考更多、消耗更多token来解决复杂问题。但其代价可能是更高的运营成本、更长的响应延迟和更大的token消耗。

  • 混合专家(MOE)架构:越来越多的新模型如Meta可能的Lama 4和DeepSeq V3 R1等都采用了MOE架构。MOE能让模型拥有大量总参数,但实际处理输入时仅使用部分模型专家,提高了训练和推理效率,降低了成本。

  • 多模态:在文本到图像生成方面,中美已达到平衡;在文本到视频生成方面,美国目前稍领先,但中国追赶势头强劲。

  • 成本与速度:智能推理成本迅速下降,但由于推理模型的普及和AI Agents等应用的创新,实际总计算需求可能继续增加。

  • AI Agent:AI Agent被认为是AI下一步发展的重要方向,在编程辅助、深度研究、计算机操作自动化和客户支持等领域有巨大潜力。

总结与思考

对于我们这些试图跟上AI浪潮的人来说,最重要的有两点:一是发展速度,中美及各大实验室之间的激烈竞争推动了AI的快速发展,我们要有紧迫感;二是技术的普及,开源模型的创新和更高效的后训练方法使强大的AI技术越来越普及,不再是少数巨头的专利。同时,实现进步的方式也在变化,过去大规模预训练更重要,现在后训练阶段的微调尤其是强化学习变得越来越重要。

最后,Sam Porch关于DeepSeq R1训练数据源的分析引发思考。当AI模型越来越强大,甚至开始相互学习时,其训练数据的来源,尤其是可能包含的其他强大模型的输出,在很大程度上塑造了它们的能力、潜在偏见甚至世界观。这是一个值得我们持续关注和讨论的重要问题。感谢收听今天的深入讨论。

Was this summary helpful?