今天,Claude 發布了最新的模型更新,也就是 Claude 4。如同之前的 3.7 與 3.5 一樣,這次也推出了 Opus 和 Sonnet 兩個版本。我們將在今天的影片中探討 Claude 4 的效能表現,並計畫在今晚或明天推出比較影片。
Claude 4 的亮點
最強大的模型?
目前看來,Claude Opus 4 是最強大的模型,同時也是全球最佳的程式設計模型。開發團隊也提供了能力圖表,顯示出顯著的進步。相較之下,OpenAI 的 O3 和 4.1 版本可能遜色不少。
Claude 與 OpenAI 的比較
如果比較 Claude 和 OpenAI,目前的狀況可能呈現互有勝負的局面。Claude 在某些方面表現突出,但 OpenAI 也並非毫無優勢。
混合模式
Claude 4 的運作方式似乎與 3.7 類似,採用混合模式,分為推理模式和非推理模式。對於簡單的問題,它會預設使用非推理模式,而對於複雜的問題,則會進行深入思考,需要較長的時間才能產生答案。
強調程式設計能力
開發團隊再次強調 Claude Opus 4 在程式設計領域的領先地位。 作為最佳程式設計模型,它能夠處理複雜且長期的任務,大幅擴展了 AI 代理的能力。
Claude Code 全面推出
除了 Claude 4 之外,Claude Code 也正式發布。早在二月時,它只是一個預覽版本,現在已經正式推出。
新功能與改進
網路搜尋功能
Claude 4 增加了一項新的 Research 功能,這代表它終於具備了網路搜尋能力,這是一個重要的更新。
模型版本與可用性
-
Claude Opus 4: 需要付費訂閱才能使用。
-
Claude Sonnet 4: 取代了先前的 3.7 版本,並且可以免費使用。
Anthropic API 的新功能
Anthropic API 將推出四項新功能,協助開發者構建強大的 AI 代理:
- 程式碼執行工具
- MCP 連接器
- 檔案 API
- 提示快取功能 (最長一小時)
記憶能力提升
Claude Opus 4 的記憶能力遠遠超越以往的模型。當開發者構建的應用程式提供本地存取權限時,Opus 4 能夠輕鬆建立和維護記憶體檔案,用來儲存關鍵資訊,從而提升 AI 代理的長期任務感知能力,進而改善連貫性和效能。Opus 4 甚至能夠在玩寶可夢時創建導航指南。
實測範例
建立超級瑪利歐遊戲
測試要求 Claude 創建一款完整的超級瑪利歐遊戲,具有跳躍時產生的衝擊波、金幣、敵人以及高度的精緻度。
建立 Apple 風格的登陸頁面
測試要求 Claude 建立一個具有大量組件和數據圖表的 Apple 風格登陸頁面,外觀簡潔優雅。
建立戒菸網站
測試要求 Claude 創建一個網路戒菸網站。
總結
Claude 4 帶來了許多令人興奮的新功能和改進。 更多詳細的比較測試將在後續影片中進行。歡迎在評論區留下您的問題,我們將在測試中使用這些問題。