OpenAI 最新 AI 模型:GPT-4o、o3 和 o4 mini 全面解析
大家好,這裡是零度解說。OpenAI 近日接連發布重磅消息,繼昨天公布 GPT-4o 後,今天又正式推出了兩款全新的 AI 模型:o3 和 o4 mini。
全新 AI 模型:o3 和 o4 mini
這兩款新模型不僅全面繼承了 GPT-4o 的多模態能力,還首次開放了全工具權限,包括圖像生成、網頁瀏覽、程式碼執行等功能。更重要的是,它們首次賦予 AI 看圖思考的能力,進一步縮小了人類與 AI 之間的差距。
模型選擇
OpenAI 的會員用戶登入後,可以看到三個模型選項:
-
o3 模型: 主要用於高級推理。
-
o4 mini 模型: 適合進行快速進階的推理。
-
o4 mini high 模型: 擅長編碼和視覺推理。
性能評估
從基本評分來看,最新版本的 o3 和 o4 mini 在編碼能力、數學難題解答、人類偏好評估等方面,都已完全超越了 o1 模型。無論是常規版,還是 o3 high 以及 o4 mini high,都已對其前輩 o1 進行了碾壓。
高階推理能力測試
愛因斯坦謎題
我們使用一個愛因斯坦謎題來測試 o3 模型的高階推理能力。題目描述了五個不同顏色的房子,住著不同國籍的人,他們喝不同的飲料、抽不同的煙、養不同的寵物。根據已知訊息,讓 AI 回答誰是養魚的人。
- 結果: o3 模型透過排除法,正確回答出德國人養魚。
時間陷阱
我們再測試一個時間陷阱題目:「昨天的後天是星期一,那麼昨天的昨天是星期幾?」
- 結果: o3 模型透過推理,正確得出答案是星期五。
快速推理能力測試
建議選擇 o4 mini 模型進行更快的推理。
數學難題
我們測試一個數學難題:有 12 枚硬幣,其中一枚是假幣,可能會更輕或更重。用天平最少稱幾次才能確保找出這枚假幣?
- 結果: o4 mini 模型迅速給出答案:最少需要 3 次稱重,並提供了詳細的推理過程。
視覺推理能力測試
遊戲截圖生成
我們使用 o4 mini high 模型,上傳一張遊戲截圖,讓它根據圖片透過 p5js 編輯一個空戰遊戲,無需 HTML,並提供螢幕說明。
- 結果: o4 mini high 模型立刻生成程式碼,運行後得到類似的遊戲。
程式碼優化
我們進一步要求 AI 優化遊戲程式碼,增加背景元素。
-
結果: 優化後的遊戲增加了更多背景,畫面效果有所提升。
-
結論: o4 mini high 模型在編寫程式碼方面速度非常快,可以輕鬆完成類似超級瑪利歐的遊戲。
圖形推理
我們上傳一張圖形推理題,讓 o4 mini high 模型從四個選項中選出最適合填入問號處的圖形,使其呈現一定的規律性。
- 結果: o4 mini high 模型在 8 秒鐘內給出正確答案,並解釋了推理過程。
解讀兒童畫作
我們上傳一張五歲兒童的畫作,讓 o4 mini 模型解釋畫作的含義。
- 結果: o4 mini 模型準確分析出畫作表達的是兒童眼中的家庭,爸爸是溫暖的山,並猜測畫中人物分別是爸爸、女兒和媽媽。
圖像生成能力測試
我們讓 o4 mini high 模型生成一隻在銀河中飛行的獨角獸動漫女孩。
- 結果: 模型迅速透過編碼實現了這一要求,展現出強大的圖片生成能力。
連網搜尋功能測試
我們讓 o4 mini 模型分析 Windows 11、Windows 10、Mac OS 和 Linux 系統的市佔率,並製作成演示長條圖。
- 結果: o4 mini 模型迅速爬取網頁數據,生成互動式圖表,顯示 Windows 10 仍是市場佔有率最高的系統,Windows 11 緊隨其後。
免費使用方法
如果你沒有付費開通 OpenAI 會員,可以透過以下兩種方法免費調用 o3 和 o4 mini 模型:
-
下載 Cursor 客戶端:
-
訪問指定連結下載 Cursor 客戶端。
-
註冊帳號並按照指示進行安裝。
-
在設定中心啟用 o3 和 o4 mini 模型。
-
透過 Windsurf 進行安裝:
-
下載 Windsurf 並進行安裝,它也提供免費試用額度。
-
今天的影片所用的全部資料連結都放在影片下方和零度部落格上。