最佳拍档: OpenAI滿血版o3/o4-mini深度解析：最強AI模型、圖像推理、工具使用全攻略！

探索 OpenAI 全新模型 o3 與 o4-mini 的強大功能！本次發布會展示了它們如何像 Agent 一樣自主完成任務，並在多項基準測試中超越人類。本文將回顧發布會的重點內容，帶你了解這兩個模型的驚人能力！

Quick Takeaways:

系統性智能：o3 不僅僅是一個模型，更是一個具備「系統性智能」的 AI 系統，能提出創新見解。
工具深度整合：o3 可自主使用多種工具，如網路搜尋、Python 編程等，解決複雜問題。
圖像推理：引入「Thinking with Images」技術，模型可直接整合圖像到思維鏈中。
科研輔助：o3 能在數秒內完成人類研究員需數天完成的科研任務。
程式碼能力：o3 與 o4-mini 在程式碼基準測試中表現出色，商業價值顯著提升。
多模態理解：在多模態任務中全面超越 o1，尤其在視覺推理方面表現卓越。
成本效益：o4-mini 不僅推理能力更強，成本也更低，適合大規模部署。
開源輕量級編碼Agent-CodeX：可安全地將 AI 模型與用戶本地環境連接，實現自動化程式碼生成。

OpenAI 最新模型 o3 與 o4-mini 發布會重點回顧

大家好，這裡是最佳拍檔。在 4 月 17 日凌晨，OpenAI 派出了 8 位員工齊聚直播間，一同解說 OpenAI 新發布的、號稱目前最為強大、最為智能的模型：滿血版 o3 和 o4-mini。這次發布會的核心在於展示這兩個模型不僅是單獨的模型，而是被設計為一個真正的 AI 系統，甚至能夠像 Agent 一樣連續調用超過 600 次的工具來完成一項艱鉅任務。更在理解和檢索大型代碼庫方面超越了人類工程師。另一個特點是引入了圖像推理 “Thinking with Images”，能夠將圖像直接整合到思維鏈中。今天我們就來回顧一下這場發布會的具體內容。

o3 模型：進化為具備「系統性智能」的 AI 系統

OpenAI 團隊在發布會上著重強調，o3 已經不再是傳統意義上單純的大模型，而是進化成了具備「系統性智能」的 AI 系統。這並不只是一個簡單的概念升級，而是頂尖科學家們在實際應用中發現，o3 能夠提出真正新穎而且有用的創意，尤其是在系統架構設計這個複雜的領域。以往的模型大多數只能在已有的框架內進行有限的優化，而 o3 卻展現出了前所未有的創新能力，它能夠打破常規，給出的設計方案常常讓人眼前一亮。

o3 模型：對工具的深度集成

o3 的另一個重大亮點就是對工具的深度集成。它可以自主使用並結合 ChatGPT 內的多種工具，像網路搜索、Python 編程、圖像分析、文件解讀和圖像生成等等。和以往的推理模型相比，o3 的主動調用能力有了突破性進展。在面對複雜問題的時候，它不再被動地等待指令，而是會選擇主動出擊，甚至能夠連續調用數百次的工具。

舉個例子，在解決一些涉及到多領域知識的難題時，它會先調用網路搜索工具獲取相關的信息，再利用 Python 進行數據處理和分析，接著通過圖像分析工具對相關圖片進行解讀。這種工具鏈式的推理，讓它解決問題的能力不僅有了大幅提升，實用性也遠超以往的模型。

o3 模型：實際應用案例展示

為了讓大家更為直觀地感受 o3 的強大能力，我們來看兩個現場演示的真實案例。

科研輔助案例

在發布會現場，研究員布蘭登進行了演示。他拿出一張 2015 年的物理研究海報，這個海報的主題是質子同位旋標量電荷計算，但是當時並沒有完成最終的結果。布蘭登向 o3 模型上傳了這張海報，並且發出指令：「請基於此海報內容，計算質子同位旋標量電荷，並且與最近幾年的文獻進行對比。」

o3 模型接到指令後，迅速開始推理。它首先把圖像分析融入到思維鏈中，精準定位海報中的關鍵圖表（比如質量外推圖），然後提取其中的數據點並且計算斜率，再外推到特定的物理參數（也就是夸克質量）。接著，模型又從文獻中檢索到相關的常數，將外推結果乘以這個常數，得到最終的電荷值。布蘭登原本的結果是 1.2，而 o3 模型估算為 1.5。完成計算後，o3 還自動檢索了近 5 年的大約 10 篇相關論文，與自己的結果進行對比。它發現由於當時實驗設備的限制，自己的結果精度低於最新研究，但是趨勢是一致的。

在這個過程中，o3 進行了多次的工具調用。它不僅調用 Python 的數值庫（比如用 NumPy 來處理圖表數據），還訪問了 arXiv、ScienceDirect 等文獻數據庫的摘要來獲取信息。對於這樣一個複雜的科研任務，按照傳統方式，人類研究員可能需要花費幾天的時間才能完成，而 o3 模型在短短 20 秒內就搞定了。這大大節省了科研人員的時間和精力，提高了科研效率。

個性化跨領域內容生成案例

研究員埃里克參與了這次演示。他啟用了模型的「記憶」功能，結合自己潛水和音樂的興趣，讓 AI 閱讀新聞並且教授一些與他的至少兩個興趣相關、但是又要足夠深奧的內容，還要求 AI 在回復中包含展示有趣數據和關係的圖表，並且起草一篇博客文章，強調了文章中要留出位置放置這個圖表。

o3 模型從埃里克的興趣入手，交叉分析了「潛水」與「音樂」這兩個領域，定位到了「珊瑚礁聲波修復」這個研究方向。然後，它開始查詢文獻，整合 2024 年《自然·生態學》雜誌的相關內容，解釋聲波吸引幼體珊瑚附著的原理。接著，它用可視化工具 Canvas 生成了珊瑚覆蓋率增長曲線圖，時間跨度從 2010 年到 2025 年，還添加了水下聲波設備的 SVG 矢量示意圖。

在這個過程中，o3 也用到了很多的工具。它通過新聞爬蟲抓取了 BBC、ScienceDaily 近期的相關報導，調用 Matplotlib 圖表庫生成數據圖，並且導出為交互式的 HTML 嵌入到博客中，還自動生成了 APA 格式的參考文獻，包括 3 篇論文和 2 篇技術報告。

從這個案例可以看出，o3 模型能夠跨領域地關聯用戶興趣，生成專業級的科普內容，而且工具鏈的自動化大大降低了內容創作的門檻，從檢索資料到排版，整個流程都能够高效的完成。

o3 和 o4-mini 在多個權威基準上的表現

除了這些實際應用的案例以外，OpenAI 在發布會上還展示了 o3 和 o4-mini 模型在多個權威基準上的表現，涵蓋了數學、編程、科學推理、多模態理解等多個維度。

數學與科學推理基准

AIME 2024 和 2025 數學競賽： o3 和 o4-mini 在引入 Python 工具後，準確率大幅提升，尤其是 o4-mini，在 AIME 2024 中幾乎「封頂」，在 AIME 2025 上準確率更是高達 99.5%，幾乎達到了人類的極限水平。這表明工具的使用對解決複雜數學題有極大的幫助。
GPQA Diamond 博士級科學問題測試： o3 和 o4-mini 在高難度科學推理題上都有顯著的提升，其中 o3 在無工具的情況下表現最佳，推理能力已經接近於博士的水平。

編程與代碼能力基准

Codeforces 國際知名算法競賽平台： o3 和 o4-mini 引入終端工具後，ELO 分數大幅提升，成功躋身了全球前 200 名選手的水平，遠超上一代的模型。
SWE-Lancer 自由職業編程任務測試： o3-high 和 o4-mini-high 在基準下的「收益」，分別達到了 65,250 和 56,375，也遠超 o1-high 和 o3-mini-high。這意味著 o3 和 o4-mini 在真實世界複雜編程任務中，能够完成更多高價值的項目，商業能力顯著提升，也說明 AI 已經具備在實際工程項目中創造巨大經濟價值的能力。
SWE-Bench 軟體工程驗證測試： o3 和 o4-mini-high 的準確率均超過 68%，大幅領先 o1。
Aider Polyglot 多語言代碼編輯測試： o3-high 在整體和差異編輯任務中都表現突出，o4-mini-high 也有不錯的表現。這些結果都證明 o3 系列在真實世界代碼任務和多語言編輯場景下，有著極強的實用性。

多模態理解與推理基准

MMMU 大學級視覺問題解決測試： o3 和 o4-mini 的準確率都超過了 81%，大幅領先 o1。
MathVista 視覺數學推理測試： o4-mini 準確率達到 84.4%，o3 為 87.5%，同樣遠超 o1。
CharXiv-Reasoning 科學圖表推理測試： o3 的準確率是 75.4%，o4-mini 為 72%，而 o1 僅 55.1%。
視覺搜索測試： o3 和 o4-mini 準確率均超 94%，大幅領先 o1 和 GPT-4o。

這一系列的數據表明，o3 和 o4-mini 在多模態任務上可以說是全面超越了 o1，尤其在視覺推理和科學圖表理解方面表現卓越，達到了業界領先水平。

綜合推理與多輪指令跟隨測試

Humanity’s Last Exam 跨學科專家級問題測試： o3 結合 Python、瀏覽和其他工具後，綜合推理能力大幅提升，接近深度研究 (deep research) 的水平。
Scale MultiChallenge 多輪指令跟隨測試： o3 在多輪複雜指令跟隨任務中表現最優。這顯示出它在長鏈路推理和任務分解方面具有很強的能力。

成本效率推理測試

o4-mini 不僅推理能力更強，而且推理成本更低，非常適合大規模部署和實際應用場景。

從測試數據來看，在低、中、高三個推理成本下，o4-mini 的準確率都顯著高於 o3-mini。
在所有成本檔位，o4-mini 的通過率也都優於 o3-mini，尤其是在低成本下優勢明顯。這使得 AI 的普惠性和實用性得到了極大提升。

與 o1 模型的對比

對比 o1，o3 模型實現了跨越式進步。

在同等甚至更低的成本下，o3 的推理能力大幅超越 o1。以 AIME 2025 為例，o3 在低、中、高成本下的準確率都遠超 o1。o3（high）的準確率超過 0.85，而 o1（high）僅為 0.75。
在 GPQA Pass@1 科學推理任務上，o3 同樣大幅領先 o1。o3（high）通過率超過 0.82，o1（high）僅為 0.77。這充分體現了 o3 在數學推理和高難度科學問題處理上的巨大優勢。
從訓練過程中的性能提升來看，隨著訓練算力的增加，o3 的表現也會持續提升，最終遠超 o1。o1 在算力提升後表現趨於平穩，而 o3 則繼續大幅提升，最終接近 90 分。這說明 o3 模型在大規模算力投入下，性能提升曲線更陡峭，具有更強的「可擴展性」，從而可以為未來更大規模、更高能力的 AI 系統奠定基礎。

開源版輕量級編碼 Agent - CodeX

發布會還有一個亮點，就是開源版輕量級編碼 Agent - CodeX。它可以說是直接對標的 Cluade Code，並且這次選擇了開源。它能夠安全地將 AI 模型與用戶本地環境連接，實現自動化代碼生成、文件編輯、命令執行等功能。

Codex CLI 支持「建議模式」和「全自動模式」，既保證了安全性，又提升了效率。在現場演示中，團隊成員使用 Codex CLI 和 o4 mini 模型，快速復現了社區中的一個圖片生成項目。整個過程中，AI 不僅可以自動分析圖片、生成 HTML 文件，還可以通過 Web Camera API 來擴展功能，展現了 AI 與本地工具深度結合的巨大潛力。

價格資訊

o3：
- 輸入：每 100 萬個 tokens 10 美元
- 緩存輸入：每 100 萬個 tokens 2.5 美元
- 輸出：每 100 萬個 tokens 40 美元
o4-mini：
- 輸入：每 100 萬個 tokens 1.1 美元
- 緩存輸入：每 100 萬個 tokens 0.275 美元
- 輸出：每 100 萬個 tokens 4.4 美元

安全性提升

對於 o3 和 o4-mini，OpenAI 這次全面重構了安全訓練數據集，新增了針對生物威脅、惡意軟體生成、越獄提示等領域的拒絕示例，使得兩個模型在內部的安全拒絕基準測試中表現優異，比如在指令層級理解和越獄防護上展現出强大的防護能力。

除了模型自身的表現外，OpenAI 還開發了系統層面的風險緩解機制，用來識別和標記涉及前沿風險領域的危險提示。比如他們訓練了一個基於推理的語言模型監控器，能够依據人類編寫的可解釋安全規範進行判斷。在生物風險的紅隊測試中，這個監控器成功識別並且標記了約 99% 的高風險對話。OpenAI 還按照最新的《準備度框架》（Preparedness Framework）標準，對這兩個模型進行了迄今為止最嚴格的安全測試，包括生物與化學風險、網路安全、AI 自我改進能力等三個方面。根據評估的結果顯示，o3 與 o4-mini 在這三個領域裡都處於「低風險」的級別。

開放進度

OpenAI 宣布 o3、o4 mini 將逐步替代舊版模型，並且已經向 Pro、Plus、Team 等訂閱用戶開放。ChatGPT 企業和教育用戶將在一周後獲得訪問權限。免費用戶可以在查詢前點擊 “Think” 按钮，嘗試 o4-mini 的推理能力。API 端也將在未來幾週內支持工具調用能力。與此同時，開源項目 CodeX 還啟動了 100 萬美元的開源激勵計劃，鼓勵開發者基於最新的模型和工具進行創新。

OpenAI 團隊還強調，o3 的訓練計算量是 o1 的 10 倍，凝聚了大量科學與工程的心血。未來，他們將繼續推動 AI 系統的實用性、效率和安全性，致力於讓 AI 真正服務於每一個人。

好了，以上就是這次 OpenAI o3 和 o4-mini 發布會的全部內容了。感謝大家收看本期視頻，我們下期再見。

OpenAI滿血版o3/o4-mini深度解析：最強AI模型、圖像推理、工具使用全攻略！

Summary

Quick Abstract

OpenAI 最新模型 o3 與 o4-mini 發布會重點回顧

o3 模型：進化為具備「系統性智能」的 AI 系統

o3 模型：對工具的深度集成

o3 模型：實際應用案例展示

科研輔助案例

個性化跨領域內容生成案例

o3 和 o4-mini 在多個權威基準上的表現

數學與科學推理基准

編程與代碼能力基准

多模態理解與推理基准

綜合推理與多輪指令跟隨測試

成本效率推理測試

與 o1 模型的對比

開源版輕量級編碼 Agent - CodeX

價格資訊

安全性提升

開放進度

Quick Actions

More from 最佳拍档

【商业】算力新锐CoreWeave即将IPO | 挖矿前身 | AI转机 | 151亿美元RPO | 预期能否兑现 | 软硬件实力 | 英伟达深度绑定 | 营收和亏损双增 | 市场竞争和风险

【英伟达】Tensor Core演进史 | SemiAnalysis | Amdahl定律 | 强、弱缩放 | Volta | Turing | Ampere | Blackwell | 结构化稀疏

【爆料】非营利组织猛爆Sam Altman黑料 | OpenAI Files | 冒充YC董事长 | 涉嫌利益输送 | 架空OpenAI董事会 | 取消投资回报上限 | 隐瞒持股 | 欺骗和隐瞒

Related Summaries

【商业】算力新锐CoreWeave即将IPO | 挖矿前身 | AI转机 | 151亿美元RPO | 预期能否兑现 | 软硬件实力 | 英伟达深度绑定 | 营收和亏损双增 | 市场竞争和风险

【英伟达】Tensor Core演进史 | SemiAnalysis | Amdahl定律 | 强、弱缩放 | Volta | Turing | Ampere | Blackwell | 结构化稀疏

【爆料】非营利组织猛爆Sam Altman黑料 | OpenAI Files | 冒充YC董事长 | 涉嫌利益输送 | 架空OpenAI董事会 | 取消投资回报上限 | 隐瞒持股 | 欺骗和隐瞒

【人工智能】软件3.0时代到来 | Andrej Karpathy | 软件的三个阶段 | 大模型是操作系统 | 早期操作系统之争 | 局限性 | 部分自治应用 | 双向奔赴 | 可靠性鸿沟

【人工智能】AI竟潜藏第二黑暗人格 | OpenAI最新研究 | 涌现性失调 | 泛化 | 推理模型更甚 | 稀疏自编码器SAE | 失调人格特征 | 有毒人格 | 涌现式重对齐 | 人类引导AI向善

【商业】算力新锐CoreWeave即将IPO | 挖矿前身 | AI转机 | 151亿美元RPO | 预期能否兑现 | 软硬件实力 | 英伟达深度绑定 | 营收和亏损双增 | 市场竞争和风险

【英伟达】Tensor Core演进史 | SemiAnalysis | Amdahl定律 | 强、弱缩放 | Volta | Turing | Ampere | Blackwell | 结构化稀疏

Summarize a New YouTube Video