中美人工智能模型差距縮小
最近,許多人都有這樣的感覺,人工智能領域,尤其是中美之間的競爭,真的是日新月異。很多人可能在想,兩者之間的差距到底有多大?最新的突破是什麼?這種變化的速度真的有點讓人趕不上。幾個月前,我們還在討論某個模型,然後突然格局就變了。
差距縮小的依據
2025年第二季度,Artificial Analysis 的報告提到,中美頂尖人工智能模型之間的智能水平差距顯著縮小,可能已縮短至不到三個月。這一結論基於名為 Artificial Analysis 的評估系統,該系統結合了七項非常困難的評估標準,如 MMLU-PRO(大規模多任務語言理解測試)、GPQA-DIAMOND(專注於學生級別問題,尤其是需要複雜推理的問題)、Amy 的數學競賽題、Humanity's Last Exam 綜合推理測試以及評估代碼生成能力的 Leibkot Bench 等。
具體模型比較
通過這些標準評估不同模型後發現,2025年5月版的 DeepSeq R1 與當時 OpenAI 的最新模型 O3、O4 Mini 在綜合指數上的得分非常接近,差距折算成時間不到三個月。這意味著 DeepSeq 的最新模型幾乎追平了 OpenAI 的旗艦模型,打破了自 Chad Gibbett 出現以來,人們普遍認為美國尤其是 OpenAI 在該領域領先且中美模型差距巨大的觀念。
差距縮小的影響
報告還用一些時間序列數據展示了這一趨勢,過去一年差距縮小速度非常快。在前端智能水平的驅動力方面,美國仍依賴 OpenAI,其模型從 O1 到 O3 確實很標準。而在中國,報告特別指出兩大驅動力,一是 DeepSeq,二是阿里巴巴的達摩院,它們的成果迅速推動了中國頂級模型智能水平的提升。
這種進步帶來了深遠影響。首先,全球人工智能競爭進入前所未有的白熱化階段,過去可能是美國獨領風騷,現在中國在追趕速度上展現出強大實力。其次,創新周期大大縮短,不到三個月的差距迫使所有參與者加快研發速度,稍有不慎就可能落後。但這也增加了未來格局的不確定性,過去人們認為 OpenAI 會一直領先,現在很難說未來的領導者是誰,這可能影響投資、人才流動甚至一些流行的技術策略。
中國在開源模型領域領先
領先的標誌事件
Artificial Analysis 的報告強調,在另一個領域——開源模型,情況似乎逆轉,中國已經超越並取得領先地位。這一變化發生在2024年11月,標誌性事件是阿里巴巴發布了名為 Queen 的模型,其32位參數預覽版在 Artificial Analysis 的智能評估中超越了 Meta 的旗艦開源模型 Lama 3.1 405B,即使用32位模型超越了405位模型,雖然 Queen 的參數數量少得多,但智能得分卻更高,當時引起了很大轟動。
領先的原因
報告認為,這背後最重要的原因是戰略差異。中國頂級人工智能實驗室,如 DeepSeq、阿里巴巴和達摩院,傾向於選擇最有能力甚至旗艦模型開源。開源模型的核心是大量參數,這些參數就像大腦中神經網絡的強度,模型的權重指的是這些訓練良好的特定參數值。開源權重意味著實驗室發布了這些核心參數文件,任何人都可以下載使用來運行模型或進行二次開發和調整。
中美策略對比
相比之下,美國的幾家人工智能巨頭,如 OpenAI、Athrobic 和 Google,雖然也會發布一些研究成果或 API,但通常會將最先進、最有能力的模型,如 GPT、Cloud Opus 和 Gemlet Pro 作為所謂的專有資產保護起來,不會輕易開源這些旗艦模型,大多只開放 API 調用或發布一些稍弱的開源版本。
這種對比非常明顯,中國傾向於開源最好的東西,而美國最好的東西是保密的。正是這種開源策略極大地促進了中國開源人工智能生態系統的發展和繁榮,開發者和研究人員可以快速訪問前端模型並進行各種實驗和應用。
DeepSeq 在開源革命中的作用
DeepSeq R1 的里程碑意義
DeepSeq R1 是這方面的一個里程碑。2025年1月發布的 DeepSeq R1 版本是第一個能夠與當時 OpenAI 的強大模型 OE 開源模型競爭的版本,在推動能力的關鍵維度上取得了巨大成就。
最新版本的卓越表現
更重要的是,過去兩天更新的 R10528 版本,即2025年5月的版本,根據 Artificial Analysis 的評估,該版本是目前全球範圍內最有能力的開源全規模模型之一。如果是開發者或研究人員,或者只是對技術非常感興趣,中國在開源領域的領先地位,尤其是像 DeepSeek RE 這樣的模型的出現,意味著過去只有少數大公司才能獲得的頂級人工智能能力,現在正以前所未有的方式變得更加開放和可用。
報告還用具體的標準測試分數來驗證這一領先地位,例如在綜合智能指數上,DeepSeq R10528 的得分明顯高於其他開源模型,包括 LAMA3.1 等。
DeepSeq R1 的能力躍升
躍升的幅度
報告指出,DeepSeq R1 的最新更新是能力的重大躍進。在 Artificial Analysis 的智能指數上,DeepSeq R1 從之前的約60分一下子上升到68分,報告甚至將其與 OpenAI 從 O1 到 O3 的重大升級進行了比較,認為這一進步相當大。
各項測試的提升
報告列出了幾項關鍵標準測試的具體分數,非常令人驚訝。例如,在 AMI Maths 測試中得分總共提高了21分,在 Lipkult Bench 代碼生成測試中提高了15分,在 GPQA 科學推理中提高了10分,在 Humanity's Last Exam 綜合推理中也提高了6分。
這種提升是全面而顯著的,在數學、代碼和科學推理等核心能力上都取得了進步。更新後,DeepSeq 在 Artificial Analysis 的全球人工智能實驗室排名中升至第二位,超越了我們熟悉的 XAI、Meta 和 Athrobic,甚至比 Google 的旗艦模型 Gemini Ideon Pro 還要好。
能力躍升的原因
模型結構未變
最重要的問題是,他們是如何做到的?這麼大的躍升,是重新訓練了模型還是有什麼秘密?報告揭示了一個關鍵發現,DeepSeq RE 的底層模型結構沒有改變,其基本結構,即總共671億個參數和37億個活動參數,與之前的版本相同。
後訓練階段的優化
巨大的性能提升主要來自後訓練階段,具體來說是後訓練階段強化學習技術的應用和優化。強化學習簡單來說就是讓模型通過試錯和獎勵機制進行學習,在語言模型中,通常是在模型經歷大規模預訓練後,再以 RL 的方式進行微調,目的是使模型的輸出更符合人類偏好,或在特定任務上表現更好。
強化學習的優勢
報告還以 OpenAI 為例,OpenAI 在從 O1 升級到 O3 的過程中擴大了計算資源,這表明 RL 對於達到頂級智能水平的重要性,而 DeepSeq RE 的更新表明他們也能夠跟上 RL 擴展的步伐並取得顯著成果。與重新進行更大規模的預訓練相比,RL 擴展通常在計算上更有效,成本更低,這對於那些在整體計算資源上不如 OpenAI 或 Google 的機構來說尤為重要,它提供了一條更有效的途徑來實現顯著的性能提升。
其他影響因素
思考時間的增加
除了 RL,報告還提到了其他有助於解釋 RE 性能提升的因素,其中一個非常有趣的觀察是思考時間。報告發現,新版 RE0528 完成 Artificial Analysis 時,消耗的令牌數比舊版增加了約40%。令牌可以簡單地解釋為模型處理的文檔單位,消耗更多令牌通常意味著模型在生成最終答案之前進行了更深入、更長時間的思考或內部處理,可能生成了更多的中間步驟、內部推理或對問題進行了更詳細的分析,這有點像我們人類遇到困難時需要更多思考。
與其他模型的比較
這種增加的思考時間被認為是提高模型在複雜推理任務中性能的重要因素。然而,報告也提到,即使令牌增加了40%,RE 的令牌使用量仍比同級別的 Gemini 2.5 Pro 少約30%,這可能反映了不同模型在推理深度和效率之間的平衡和差異,GEMLAIN 可能思考得更周到,但 RE 可能在效率上有一些優化。
模型的具體能力
編碼能力
編碼能力也是 R1 更新的一個亮點。報告指出,在 Artificial Analysis 的編碼能力指數上,新版 R1 已經與 GEMLA 2.0 Pro 持平,與 OpenEdge O4 Mini 和 O3 相似,即在代碼生成和理解方面,R1 已經達到了非常頂尖的水平,報告甚至提到,在親自測試時,感覺 R1 的代碼輸出往往又大又簡潔,這對開發者來說絕對是個好消息。
模型通用關係數和數據流分析
這是基於所謂的輸出特徵進行的一項非常有趣的補充分析,其原理是分析模型在創作寫作(如寫故事和詩歌)中輸出文本中出現頻率較高的單詞和單詞組合,這些組合往往反映了模型訓練數據的某些特徵或模型學習到的一些模式。
通過比較和分析不同模型的輸出特徵圖像,發現第一代 RE 版本(1月版)的輸出特徵圖像在圖表中與 GPT-3 等 OpenAI 模型歸為一組,關係相對較近,這引發了一種猜測,即第一代 RE 在訓練過程中是否在一定程度上依賴於 OpenAI 模型輸出的數據,即所謂的數據流。
更有趣的是,更新後的 R10528 版本,其輸出特徵圖像在圖表上更接近 Google 的 Jamline 模型組,這導致了一個更大膽的猜測,DeepSeq 是否在後期訓練策略上做出了重大改變,從可能依賴 OpenAI 的輸出轉向了 Jamline 的輸出。
人工智能領域的其他重要趨勢
推理模型
Artificial Analysis 報告,尤其是2025年第一和第二季度的狀態報告,還強調了人工智能領域我們關注的關鍵趨勢和重要參與者。首先,再次強調了內部思考和消耗更多令牌來解決複雜問題的推理模型,報告認為它們現在是推動智能前沿的領導力量。
報告深入解釋了這種模型的機制或特徵,即模型會生成一些中間步驟或內部讀取,這有助於它更好地理解,但這也帶來了權重,主要是更高水平的智能,但代價可能是更高的運營成本、更長的響應延遲和更高的令牌消耗。報告甚至用一個經典的孟德爾 - 霍爾問題的例子來說明,這種類型的推理模型和非推理模型在理解和解決複雜甚至違反直覺的問題上略有不同,推理模型明顯表現更好。
混合專家架構
報告指出,現在越來越多的新模型,包括 Meta 的 LAMA4 和 DeepSeq v3 R1 等,都使用了 MOE 架構。MOE 之所以如此流行,主要是因為它的效率。MOE 允許模型擁有非常大的總參數數量,如 R1 的671億個,但在實際處理輸入時,只有一些專家被激活,如 R1 的37億個活動參數。2025年的模型呈現出越來越罕見的趨勢,許多模型的激活率不到10%。
這種多功能性使得模型在訓練和推理時更有效率,成本也相對更可控,可以理解為用更少的活動腦細胞來完成任務,但總腦容量可以很大,這使得在不犧牲太多性能的情況下擴大模型規模成為可能。
多模態
人工智能不僅能夠處理文本,多模態也是報告的一個重點。在文本到圖片生成方面,報告認為中國已經達到了軍事水平,他們比較了 OpenAI 的 GPT-4O 和中國的 C-Dream 3.0,認為兩者在圖像生成方面不相上下。
在當前流行的視頻方面,報告認為美國目前稍領先於 Google 的 Vio 3,但中國的追趕意識非常強,競爭力極強,報告提到,Klin 2.0 和 Minimax 公司以及阿里巴巴在該領域的相關模型都展現出了非常強大的實力,可以說在視頻生成領域也是群雄逐鹿,參與者也多樣化,有像 Google 這樣的大型科技公司,也有像 Minimax 這樣專注於特定模型的公司。
成本
成本和速度也是持續關注的一部分。報告指出,一個積極的趨勢是智能推理的成本正在迅速下降,即完成相同智能水平任務的成本越來越低。然而,需要注意的是,由於我們剛才提到的推理模型的普及,以及 AI Agent 等應用,它們通常需要更複雜和多步驟的推理,所以即使單位成本下降了,但實際總計算需求可能會繼續增長,也就是說,雖然做單個任務更便宜了,但我們讓 AI 的工作越來越複雜、越來越多,所以總費用不一定會減少,甚至可能會增加。
AI Agent
AI Agent 簡單來說就是能夠更自由地理解目標、設計計劃和使用工具來完成複雜任務的 AI。報告強調,AI-Agent 被認為是下一代 AI 發展的重要方向,尤其是在一些關鍵應用領域,如編程支持、深入研究、自動電腦操作和客戶支持等。AI-Agent 聽起來可以做更多的事情,更主動,有巨大的潛力,但它仍在快速發展和改進的過程中。
對追趕人工智能浪潮的人的啟示
發展速度
人工智能領域的變化日新月異,先進的人工智能能力以前所未有的速度涌現,中美之間以及各大實驗室之間的激烈競爭推動著語言模型、推理能力和多模態人工智能的快速發展,需要有這種緊迫感。
技術的普及
尤其是開源模型的創新,以及通過更有效的後訓練方法實現性能躍升,這意味著強大的人工智能技術正變得越來越可用,不再是少數巨頭的專利,這種創新和應用開闢了巨大的空間。
同時,要意識到性能提升的方法本身也在變化,過去可能更重要的是大規模預訓練,現在看來,後訓練階段的經濟調整,尤其是強化學習,變得越來越重要,這可能預示著未來人工智能發展的一些變化。
最後,回到關於 DeepSeq R1 訓練數據來源的有趣分析,當這些人工智能模型變得越來越強大,甚至開始相互學習時,它們的起源,即訓練它們的數據,尤其是可能包含的其他強大模型的輸出,在多大程度上創造了它們的能力、潛在的偏差,甚至它們的世界觀?
在我們繼續觀察這一領域的發展時,推理模型從何而來以及它們對它們有什麼影響?這是一個既有技術深度又有人文關懷的重要問題。
如果喜歡今天的節目,不要忘記點贊、分享和訂閱頻道,以獲得及時的信息和深入的技術分析。感謝收看,下次再見。