Wes Roth: OpenAI O3 Pro實測：一舉破解蘋果「思考的錯覺」！全新AI模型深度評測

OpenAI 今天發布了 O3 Pro，引發 AI 界的震撼！它打破了許多我們認為不可能的事，同時，原版 O3 的價格大幅下降 80%。這意味著以前最好的模型之一現在變得更加實惠。本文將探討 O3 Pro 的突破性能力，以及它如何顛覆我們對 AI 模型的固有印象，同時解讀新模型的特性。

Quick Takeaways:

O3 Pro 解決複雜問題： 成功解決了傳統 AI 模型無法完成的「河內塔」問題，展現卓越的推理能力。
超越聊天機器人： O3 Pro 更像是一個報告生成器，擅長深度分析和複雜任務，需要大量的上下文資訊。
工具整合系統： 不僅僅是一個模型，更是一個整合多種工具的 AI 系統，能搜尋網路、分析檔案、並進行 Python 程式設計。
潛力無限： 能夠理解並重新應用研究論文的概念，應用於全新的遊戲開發，展現了驚人的適應性和創造力。
更需要情境資訊： O3 Pro 必須提供大量資訊才能發揮其功能，簡單的問題並不能完全發揮它的實力。

O3 Pro 真正強大的地方在於它能夠處理大量上下文資訊，並且能夠在複雜的任務中展現出驚人的能力。它不僅僅是一個模型，而是一個強大的 AI 系統。

OpenAI 近日發布了 O3 Pro 模型，其強大的能力突破了許多原以為不可能的界限。同時，原版 O3 的價格大幅下降 80%，使得這款優秀的模型變得更加親民。

O3 Pro：顛覆既有認知

O3 Pro 的使用方式與以往的模型有所不同，需要拋開過去的既定印象。它更像是一個報告生成器，而非傳統的聊天機器人。

破解「思考的錯覺」難題

蘋果公司曾發表一篇名為《思考的錯覺》的論文，其中提出了一些推理模型的測試案例，例如「河內塔」問題。在該問題中，需要在特定規則下移動圓盤，將左側的塔複製到右側。圓盤數量越多，所需的步驟也越多，難度也越高。

論文指出，許多模型在面對高難度的「河內塔」問題時，準確率接近於 0%。然而，O3 Pro 在使用論文中提供的提示詞後，成功解決了 10 個圓盤的河內塔問題，總共使用了 1023 步，驗證了其解決方案的正確性。這也某種程度上打破了「思考的錯覺」。

解決複雜問題的能力

除了「河內塔」問題，O3 Pro 還被用於解決其他複雜問題。例如，模擬 15 名演員和 15 名經紀人試圖乘船過河，但任何演員都不希望與其他經紀人同在，除非自己的經紀人也在場。目前，該模型仍在分析這個問題。

O3 Pro 的潛力：自我改進架構

O3 Pro 的能力令人驚嘆。研究人員曾發表一篇名為《變革的代理人》的論文，教導大型語言模型玩《卡坦島拓荒者》遊戲，並創建了一個自我改進框架。該框架包含多個代理人，例如 Evolver、Strategizer、Coder、Researcher 和 Analyzer 等，透過迭代的方式來提高遊戲水平。

研究人員將這篇論文上傳到 O3 Pro，並要求它提出一個在《外交》遊戲中重現類似的遞歸自我改進架構的計畫。O3 Pro 在 13 分鐘內完成了計畫，並詳細說明了如何將該論文中的架構應用於《外交》遊戲。

自動程式碼生成

更令人驚訝的是，研究人員要求 O3 Pro 編寫程式碼，而它在 15 分鐘 21 秒內完成了程式碼的框架搭建，並解釋了選擇架構的原因，以及如何添加 API 金鑰等步驟。

雖然目前還只是框架，後續的程式碼編寫可能失敗，但如果 O3 Pro 能夠成功地將機器學習論文中的概念應用於另一個遊戲，而無需人工編寫任何程式碼，這將是一個巨大的突破。

O3 Pro：不僅僅是一個模型

O3 Pro 並非僅僅是一個模型，而是一個AI 系統，它可以在後台運行許多工具，其中一些工具甚至是使用者無法直接看到的。

強大的工具支持

O3 Pro 可以存取多種工具，例如：

網路搜尋
檔案分析
視覺輸入推理
Python 使用
使用記憶進行個人化回應

早期使用者測試表明，大多數使用者更喜歡 O3 Pro，認為它在大多數情況下都優於 O3。

需要更多上下文

雖然一些人認為 O3 Pro 的基準測試結果與 Gemini 2.5 Pro 的最新版本相似，但這些基準測試可能無法完全捕捉到 O3 Pro 的全部能力。

正如 Latent Space 的 Hylak 所說，O3 Pro 是一個巨大的、緩慢的、昂貴的、智商最高的推理模型，擅長批判、一次性解決複雜問題，並推動純粹智慧的發展。

為了充分發揮 O3 Pro 的能力，需要提供更多的上下文，讓它處理更複雜的問題。就像愛因斯坦一樣，簡單的問題無法展現他的真正智慧。

Raindrop.ai 的團隊將過去所有規劃會議的歷史記錄、目標，甚至語音備忘錄都上傳到 O3 Pro，並要求它制定一個計畫。結果令人驚艷，O3 Pro 提出了具體的計畫和分析，包括目標指標、時間表、優先順序以及需要削減的內容。

O3 Pro 的計畫非常具體，甚至改變了 Raindrop.ai 對於未來的思考方式。這也說明，目前的評估指標可能無法完全捕捉到 O3 Pro 的真正價值。

總結

O3 Pro 是一個令人印象深刻的模型，擁有強大的能力。然而，要充分發揮其潛力，需要提供足夠的上下文，並讓它處理複雜的問題。

同時，OpenAI 也將原版 O3 的價格大幅下降 80%，讓更多人能夠體驗到這款優秀的模型。

OpenAI O3 Pro實測：一舉破解蘋果「思考的錯覺」！全新AI模型深度評測

Summary

Quick Abstract