Video thumbnail for 【人工智能】OpenAI发布满血版o3和o4-mini | 迄今为止最强大最智能 | 深度使用工具 | 图像推理 | 基准评分大幅提升 | 博士水平 | 成本效率更优 | Agent-CodeX开源

OpenAI滿血版o3/o4-mini深度解析:最強AI模型、圖像推理、工具使用全攻略!

Summary

Language:

Quick Abstract

探索 OpenAI 全新模型 o3 與 o4-mini 的強大功能!本次發布會展示了它們如何像 Agent 一樣自主完成任務,並在多項基準測試中超越人類。本文將回顧發布會的重點內容,帶你了解這兩個模型的驚人能力!

Quick Takeaways:

  • 系統性智能:o3 不僅僅是一個模型,更是一個具備「系統性智能」的 AI 系統,能提出創新見解。

  • 工具深度整合:o3 可自主使用多種工具,如網路搜尋、Python 編程等,解決複雜問題。

  • 圖像推理:引入「Thinking with Images」技術,模型可直接整合圖像到思維鏈中。

  • 科研輔助:o3 能在數秒內完成人類研究員需數天完成的科研任務。

  • 程式碼能力:o3 與 o4-mini 在程式碼基準測試中表現出色,商業價值顯著提升。

  • 多模態理解:在多模態任務中全面超越 o1,尤其在視覺推理方面表現卓越。

  • 成本效益:o4-mini 不僅推理能力更強,成本也更低,適合大規模部署。

  • 開源輕量級編碼Agent-CodeX:可安全地將 AI 模型與用戶本地環境連接,實現自動化程式碼生成。

OpenAI 最新模型 o3 與 o4-mini 發布會重點回顧

大家好,這裡是最佳拍檔。在 4 月 17 日凌晨,OpenAI 派出了 8 位員工齊聚直播間,一同解說 OpenAI 新發布的、號稱目前最為強大、最為智能的模型:滿血版 o3 和 o4-mini。這次發布會的核心在於展示這兩個模型不僅是單獨的模型,而是被設計為一個真正的 AI 系統,甚至能夠像 Agent 一樣連續調用超過 600 次的工具來完成一項艱鉅任務。更在理解和檢索大型代碼庫方面超越了人類工程師。另一個特點是引入了圖像推理 “Thinking with Images”,能夠將圖像直接整合到思維鏈中。今天我們就來回顧一下這場發布會的具體內容。

o3 模型:進化為具備「系統性智能」的 AI 系統

OpenAI 團隊在發布會上著重強調,o3 已經不再是傳統意義上單純的大模型,而是進化成了具備「系統性智能」的 AI 系統。這並不只是一個簡單的概念升級,而是頂尖科學家們在實際應用中發現,o3 能夠提出真正新穎而且有用的創意,尤其是在系統架構設計這個複雜的領域。以往的模型大多數只能在已有的框架內進行有限的優化,而 o3 卻展現出了前所未有的創新能力,它能夠打破常規,給出的設計方案常常讓人眼前一亮。

o3 模型:對工具的深度集成

o3 的另一個重大亮點就是對工具的深度集成。它可以自主使用並結合 ChatGPT 內的多種工具,像網路搜索、Python 編程、圖像分析、文件解讀和圖像生成等等。和以往的推理模型相比,o3 的主動調用能力有了突破性進展。在面對複雜問題的時候,它不再被動地等待指令,而是會選擇主動出擊,甚至能夠連續調用數百次的工具。

舉個例子,在解決一些涉及到多領域知識的難題時,它會先調用網路搜索工具獲取相關的信息,再利用 Python 進行數據處理和分析,接著通過圖像分析工具對相關圖片進行解讀。這種工具鏈式的推理,讓它解決問題的能力不僅有了大幅提升,實用性也遠超以往的模型。

o3 模型:實際應用案例展示

為了讓大家更為直觀地感受 o3 的強大能力,我們來看兩個現場演示的真實案例。

科研輔助案例

在發布會現場,研究員布蘭登進行了演示。他拿出一張 2015 年的物理研究海報,這個海報的主題是質子同位旋標量電荷計算,但是當時並沒有完成最終的結果。布蘭登向 o3 模型上傳了這張海報,並且發出指令:「請基於此海報內容,計算質子同位旋標量電荷,並且與最近幾年的文獻進行對比。」

o3 模型接到指令後,迅速開始推理。它首先把圖像分析融入到思維鏈中,精準定位海報中的關鍵圖表(比如質量外推圖),然後提取其中的數據點並且計算斜率,再外推到特定的物理參數(也就是夸克質量)。接著,模型又從文獻中檢索到相關的常數,將外推結果乘以這個常數,得到最終的電荷值。布蘭登原本的結果是 1.2,而 o3 模型估算為 1.5。完成計算後,o3 還自動檢索了近 5 年的大約 10 篇相關論文,與自己的結果進行對比。它發現由於當時實驗設備的限制,自己的結果精度低於最新研究,但是趨勢是一致的。

在這個過程中,o3 進行了多次的工具調用。它不僅調用 Python 的數值庫(比如用 NumPy 來處理圖表數據),還訪問了 arXiv、ScienceDirect 等文獻數據庫的摘要來獲取信息。對於這樣一個複雜的科研任務,按照傳統方式,人類研究員可能需要花費幾天的時間才能完成,而 o3 模型在短短 20 秒內就搞定了。這大大節省了科研人員的時間和精力,提高了科研效率。

個性化跨領域內容生成案例

研究員埃里克參與了這次演示。他啟用了模型的「記憶」功能,結合自己潛水和音樂的興趣,讓 AI 閱讀新聞並且教授一些與他的至少兩個興趣相關、但是又要足夠深奧的內容,還要求 AI 在回復中包含展示有趣數據和關係的圖表,並且起草一篇博客文章,強調了文章中要留出位置放置這個圖表。

o3 模型從埃里克的興趣入手,交叉分析了「潛水」與「音樂」這兩個領域,定位到了「珊瑚礁聲波修復」這個研究方向。然後,它開始查詢文獻,整合 2024 年《自然·生態學》雜誌的相關內容,解釋聲波吸引幼體珊瑚附著的原理。接著,它用可視化工具 Canvas 生成了珊瑚覆蓋率增長曲線圖,時間跨度從 2010 年到 2025 年,還添加了水下聲波設備的 SVG 矢量示意圖。

在這個過程中,o3 也用到了很多的工具。它通過新聞爬蟲抓取了 BBC、ScienceDaily 近期的相關報導,調用 Matplotlib 圖表庫生成數據圖,並且導出為交互式的 HTML 嵌入到博客中,還自動生成了 APA 格式的參考文獻,包括 3 篇論文和 2 篇技術報告。

從這個案例可以看出,o3 模型能夠跨領域地關聯用戶興趣,生成專業級的科普內容,而且工具鏈的自動化大大降低了內容創作的門檻,從檢索資料到排版,整個流程都能够高效的完成。

o3 和 o4-mini 在多個權威基準上的表現

除了這些實際應用的案例以外,OpenAI 在發布會上還展示了 o3 和 o4-mini 模型在多個權威基準上的表現,涵蓋了數學、編程、科學推理、多模態理解等多個維度。

數學與科學推理基准

  • AIME 2024 和 2025 數學競賽: o3 和 o4-mini 在引入 Python 工具後,準確率大幅提升,尤其是 o4-mini,在 AIME 2024 中幾乎「封頂」,在 AIME 2025 上準確率更是高達 99.5%,幾乎達到了人類的極限水平。這表明工具的使用對解決複雜數學題有極大的幫助。

  • GPQA Diamond 博士級科學問題測試: o3 和 o4-mini 在高難度科學推理題上都有顯著的提升,其中 o3 在無工具的情況下表現最佳,推理能力已經接近於博士的水平。

編程與代碼能力基准

  • Codeforces 國際知名算法競賽平台: o3 和 o4-mini 引入終端工具後,ELO 分數大幅提升,成功躋身了全球前 200 名選手的水平,遠超上一代的模型。

  • SWE-Lancer 自由職業編程任務測試: o3-high 和 o4-mini-high 在基準下的「收益」,分別達到了 65,250 和 56,375,也遠超 o1-high 和 o3-mini-high。這意味著 o3 和 o4-mini 在真實世界複雜編程任務中,能够完成更多高價值的項目,商業能力顯著提升,也說明 AI 已經具備在實際工程項目中創造巨大經濟價值的能力。

  • SWE-Bench 軟體工程驗證測試: o3 和 o4-mini-high 的準確率均超過 68%,大幅領先 o1。

  • Aider Polyglot 多語言代碼編輯測試: o3-high 在整體和差異編輯任務中都表現突出,o4-mini-high 也有不錯的表現。這些結果都證明 o3 系列在真實世界代碼任務和多語言編輯場景下,有著極強的實用性。

多模態理解與推理基准

  • MMMU 大學級視覺問題解決測試: o3 和 o4-mini 的準確率都超過了 81%,大幅領先 o1。

  • MathVista 視覺數學推理測試: o4-mini 準確率達到 84.4%,o3 為 87.5%,同樣遠超 o1。

  • CharXiv-Reasoning 科學圖表推理測試: o3 的準確率是 75.4%,o4-mini 為 72%,而 o1 僅 55.1%。

  • 視覺搜索測試: o3 和 o4-mini 準確率均超 94%,大幅領先 o1 和 GPT-4o。

這一系列的數據表明,o3 和 o4-mini 在多模態任務上可以說是全面超越了 o1,尤其在視覺推理和科學圖表理解方面表現卓越,達到了業界領先水平。

綜合推理與多輪指令跟隨測試

  • Humanity’s Last Exam 跨學科專家級問題測試: o3 結合 Python、瀏覽和其他工具後,綜合推理能力大幅提升,接近深度研究 (deep research) 的水平。

  • Scale MultiChallenge 多輪指令跟隨測試: o3 在多輪複雜指令跟隨任務中表現最優。這顯示出它在長鏈路推理和任務分解方面具有很強的能力。

成本效率推理測試

o4-mini 不僅推理能力更強,而且推理成本更低,非常適合大規模部署和實際應用場景。

  • 從測試數據來看,在低、中、高三個推理成本下,o4-mini 的準確率都顯著高於 o3-mini。

  • 在所有成本檔位,o4-mini 的通過率也都優於 o3-mini,尤其是在低成本下優勢明顯。這使得 AI 的普惠性和實用性得到了極大提升。

與 o1 模型的對比

對比 o1,o3 模型實現了跨越式進步。

  • 在同等甚至更低的成本下,o3 的推理能力大幅超越 o1。以 AIME 2025 為例,o3 在低、中、高成本下的準確率都遠超 o1。o3(high)的準確率超過 0.85,而 o1(high)僅為 0.75。

  • 在 GPQA Pass@1 科學推理任務上,o3 同樣大幅領先 o1。o3(high)通過率超過 0.82,o1(high)僅為 0.77。這充分體現了 o3 在數學推理和高難度科學問題處理上的巨大優勢。

  • 從訓練過程中的性能提升來看,隨著訓練算力的增加,o3 的表現也會持續提升,最終遠超 o1。o1 在算力提升後表現趨於平穩,而 o3 則繼續大幅提升,最終接近 90 分。這說明 o3 模型在大規模算力投入下,性能提升曲線更陡峭,具有更強的「可擴展性」,從而可以為未來更大規模、更高能力的 AI 系統奠定基礎。

開源版輕量級編碼 Agent - CodeX

發布會還有一個亮點,就是開源版輕量級編碼 Agent - CodeX。它可以說是直接對標的 Cluade Code,並且這次選擇了開源。它能夠安全地將 AI 模型與用戶本地環境連接,實現自動化代碼生成、文件編輯、命令執行等功能。

Codex CLI 支持「建議模式」和「全自動模式」,既保證了安全性,又提升了效率。在現場演示中,團隊成員使用 Codex CLI 和 o4 mini 模型,快速復現了社區中的一個圖片生成項目。整個過程中,AI 不僅可以自動分析圖片、生成 HTML 文件,還可以通過 Web Camera API 來擴展功能,展現了 AI 與本地工具深度結合的巨大潛力。

價格資訊

  • o3:

    • 輸入:每 100 萬個 tokens 10 美元

    • 緩存輸入:每 100 萬個 tokens 2.5 美元

    • 輸出:每 100 萬個 tokens 40 美元

  • o4-mini:

    • 輸入:每 100 萬個 tokens 1.1 美元

    • 緩存輸入:每 100 萬個 tokens 0.275 美元

    • 輸出:每 100 萬個 tokens 4.4 美元

安全性提升

對於 o3 和 o4-mini,OpenAI 這次全面重構了安全訓練數據集,新增了針對生物威脅、惡意軟體生成、越獄提示等領域的拒絕示例,使得兩個模型在內部的安全拒絕基準測試中表現優異,比如在指令層級理解和越獄防護上展現出强大的防護能力。

除了模型自身的表現外,OpenAI 還開發了系統層面的風險緩解機制,用來識別和標記涉及前沿風險領域的危險提示。比如他們訓練了一個基於推理的語言模型監控器,能够依據人類編寫的可解釋安全規範進行判斷。在生物風險的紅隊測試中,這個監控器成功識別並且標記了約 99% 的高風險對話。OpenAI 還按照最新的《準備度框架》(Preparedness Framework)標準,對這兩個模型進行了迄今為止最嚴格的安全測試,包括生物與化學風險、網路安全、AI 自我改進能力等三個方面。根據評估的結果顯示,o3 與 o4-mini 在這三個領域裡都處於「低風險」的級別。

開放進度

OpenAI 宣布 o3、o4 mini 將逐步替代舊版模型,並且已經向 Pro、Plus、Team 等訂閱用戶開放。ChatGPT 企業和教育用戶將在一周後獲得訪問權限。免費用戶可以在查詢前點擊 “Think” 按钮,嘗試 o4-mini 的推理能力。API 端也將在未來幾週內支持工具調用能力。與此同時,開源項目 CodeX 還啟動了 100 萬美元的開源激勵計劃,鼓勵開發者基於最新的模型和工具進行創新。

OpenAI 團隊還強調,o3 的訓練計算量是 o1 的 10 倍,凝聚了大量科學與工程的心血。未來,他們將繼續推動 AI 系統的實用性、效率和安全性,致力於讓 AI 真正服務於每一個人。

好了,以上就是這次 OpenAI o3 和 o4-mini 發布會的全部內容了。感謝大家收看本期視頻,我們下期再見。

Was this summary helpful?

Quick Actions

Watch on YouTube

Stay Updated

Get the latest summaries delivered to your inbox weekly.