Anthropic 公司推出了全新的 Claude 模型,包括 Claude for Opus 和 Claude for Sonnet,引起了廣泛關注。這段影片將深入探討這些模型的各種應用方式,並與市面上的其他模型進行比較。目前看來,這波宣傳並非言過其實,因為它們在多個方面都有卓越的表現。
無與倫比的寫作風格
Claude for Opus 在寫作風格上表現出色,超越了所有其他模型。即使沒有特別的風格提示,也能產生非常自然且人性化的文字。這使其成為需要生成高品質文本內容的用戶的理想選擇。
強大的程式碼能力
這些模型在程式碼方面的能力也令人印象深刻,與 Google I/O 上展示的 Demo 相符,甚至更勝一籌。它們能夠一次性構建更複雜的應用程式,而且表現得更聰明,在基準測試中也表現更好。
SWE Bench 基準測試
Anthropic 特別強調了 SWE Bench 基準測試,這是一組實際的軟體工程範例。Claude 模型在這些測試中表現出色,甚至超越了 OpenAI 的 GPT-4。Sonnet 模型在某些方面甚至略勝一籌,而且價格更低。
與過去的模型的比較
與六個月前的模型(例如 OpenAI 的 01)相比,這些新模型的進步非常顯著。當時,能夠解決 30% 到 40% 的問題就被認為是突破性的。而現在,Claude 模型可以解決 72% 到 80% 的問題。
實際應用:日常使用的考量
儘管基準測試表現良好,但關鍵問題在於這些模型在實際應用中是否真的好用。簡而言之,它們絕對值得考慮和測試。在寫作、程式碼和上下文保留等方面,它們超越了我們所見過的所有其他模型。
語氣範例:電子郵件撰寫
以撰寫一封關於咖啡機故障的電子郵件給老闆為例。Opus 模型生成的電子郵件聽起來非常自然,沒有任何 AI 痕跡。它像人類一樣表達問題、提出解決方案,並且沒有使用任何奇怪的詞語。
風格範例:YouTube 影片介紹
Opus 模型在撰寫 YouTube 影片介紹方面也表現出色。它能夠以自然且引人入勝的方式吸引觀眾,而無需進行任何特殊的提示。與 GPT-4.5 相比,Opus 的寫作風格更勝一籌。
開發者工具的增強
除了模型性能的提升,Anthropic 還發布了一系列開發者工具,使開發者能夠更有效地使用這些模型。
API 的改進
Claude for Opus 和 Sonnet 現在通過 API 提供各種工具,例如數據分析。這意味著它們不僅可以編寫程式碼,還可以通過 API 執行程式碼。
Cloud Code 的更新
Cloud Code 是一個用於 Claude 的命令行介面。現在,Cloud Code 中任務的運行時間更長,以前是 1 到 5 分鐘,現在可以運行 15 到 20 分鐘。透過 API,甚至可以運行長達七個小時。
Prompt Caching
Prompt caching 是一項節省成本的技術。它可以讓 Agent 記住特定領域或一定量的上下文,而無需每次都重新傳遞整個互動歷史記錄。現在,prompt caching 的時間已從五分鐘延長到一小時。
實際範例展示
為了更具體地了解這些模型的性能,影片中展示了一些實際範例。
-
太陽系應用程式: 創建了一個可以展示太陽系行星的互動式 Web 應用程式。
-
3D RPG 遊戲: 使用簡單的提示創建了一個簡單的 3D RPG 遊戲,包含敵人、戰鬥和武器。
-
財務追蹤儀表板: 建立了一個互動式財務儀表板,包含現金流管理和預算功能,介面簡潔直觀。
這些範例展示了這些模型在程式碼生成和應用程式構建方面的能力,以及它們在實際應用中的可靠性。
結論
總而言之,Anthropic 的 Claude for Opus 和 Sonnet 模型在寫作和程式碼能力方面都取得了重大突破。它們的自然寫作風格、強大的程式碼能力和開發者工具的增強使其成為一個有吸引力的選擇。現在代理可以運行更長時間且成本更低,這將為構建複雜應用程式和自動化工作流程開闢新的可能性。這些新模型可能對軟體產業和各種線上服務產生重大影響。