OpenAI 近日發布了 O3 Pro 模型,其強大的能力突破了許多原以為不可能的界限。同時,原版 O3 的價格大幅下降 80%,使得這款優秀的模型變得更加親民。
O3 Pro:顛覆既有認知
O3 Pro 的使用方式與以往的模型有所不同,需要拋開過去的既定印象。它更像是一個報告生成器,而非傳統的聊天機器人。
破解「思考的錯覺」難題
蘋果公司曾發表一篇名為《思考的錯覺》的論文,其中提出了一些推理模型的測試案例,例如「河內塔」問題。在該問題中,需要在特定規則下移動圓盤,將左側的塔複製到右側。圓盤數量越多,所需的步驟也越多,難度也越高。
論文指出,許多模型在面對高難度的「河內塔」問題時,準確率接近於 0%。然而,O3 Pro 在使用論文中提供的提示詞後,成功解決了 10 個圓盤的河內塔問題,總共使用了 1023 步,驗證了其解決方案的正確性。這也某種程度上打破了「思考的錯覺」。
解決複雜問題的能力
除了「河內塔」問題,O3 Pro 還被用於解決其他複雜問題。例如,模擬 15 名演員和 15 名經紀人試圖乘船過河,但任何演員都不希望與其他經紀人同在,除非自己的經紀人也在場。目前,該模型仍在分析這個問題。
O3 Pro 的潛力:自我改進架構
O3 Pro 的能力令人驚嘆。研究人員曾發表一篇名為《變革的代理人》的論文,教導大型語言模型玩《卡坦島拓荒者》遊戲,並創建了一個自我改進框架。該框架包含多個代理人,例如 Evolver、Strategizer、Coder、Researcher 和 Analyzer 等,透過迭代的方式來提高遊戲水平。
研究人員將這篇論文上傳到 O3 Pro,並要求它提出一個在《外交》遊戲中重現類似的遞歸自我改進架構的計畫。O3 Pro 在 13 分鐘內完成了計畫,並詳細說明了如何將該論文中的架構應用於《外交》遊戲。
自動程式碼生成
更令人驚訝的是,研究人員要求 O3 Pro 編寫程式碼,而它在 15 分鐘 21 秒內完成了程式碼的框架搭建,並解釋了選擇架構的原因,以及如何添加 API 金鑰等步驟。
雖然目前還只是框架,後續的程式碼編寫可能失敗,但如果 O3 Pro 能夠成功地將機器學習論文中的概念應用於另一個遊戲,而無需人工編寫任何程式碼,這將是一個巨大的突破。
O3 Pro:不僅僅是一個模型
O3 Pro 並非僅僅是一個模型,而是一個AI 系統,它可以在後台運行許多工具,其中一些工具甚至是使用者無法直接看到的。
強大的工具支持
O3 Pro 可以存取多種工具,例如:
-
網路搜尋
-
檔案分析
-
視覺輸入推理
-
Python 使用
-
使用記憶進行個人化回應
早期使用者測試表明,大多數使用者更喜歡 O3 Pro,認為它在大多數情況下都優於 O3。
需要更多上下文
雖然一些人認為 O3 Pro 的基準測試結果與 Gemini 2.5 Pro 的最新版本相似,但這些基準測試可能無法完全捕捉到 O3 Pro 的全部能力。
正如 Latent Space 的 Hylak 所說,O3 Pro 是一個巨大的、緩慢的、昂貴的、智商最高的推理模型,擅長批判、一次性解決複雜問題,並推動純粹智慧的發展。
為了充分發揮 O3 Pro 的能力,需要提供更多的上下文,讓它處理更複雜的問題。就像愛因斯坦一樣,簡單的問題無法展現他的真正智慧。
Raindrop.ai 的團隊將過去所有規劃會議的歷史記錄、目標,甚至語音備忘錄都上傳到 O3 Pro,並要求它制定一個計畫。結果令人驚艷,O3 Pro 提出了具體的計畫和分析,包括目標指標、時間表、優先順序以及需要削減的內容。
O3 Pro 的計畫非常具體,甚至改變了 Raindrop.ai 對於未來的思考方式。這也說明,目前的評估指標可能無法完全捕捉到 O3 Pro 的真正價值。
總結
O3 Pro 是一個令人印象深刻的模型,擁有強大的能力。然而,要充分發揮其潛力,需要提供足夠的上下文,並讓它處理複雜的問題。
同時,OpenAI 也將原版 O3 的價格大幅下降 80%,讓更多人能夠體驗到這款優秀的模型。