今天有三大重點發布,讓我們來一一了解。
Gemini 2.5 Pro
效能與編碼能力
首先是 Gemini 2.5 Pro,在報告的基準測試中展現了令人難以置信的結果。原先的 2.5 Pro 已經是很出色的編碼模型,這次的升級更令人驚喜。例如,可以用單一提示創建網頁應用程式,而且可以透過單一提示調整網頁應用程式,看來能夠確實遵循提示。
最新進展
Logan 公布了這個新模型,據稱在人類最後的考試 ADAR 和 GPQA 中,Gemini 2.5 Pro 是最先進的模型。它支援「思考預算」(thinking budget),可以設定思考過程中使用的 token 數量。不過,目前只能取得摘要,無法存取原始的思考 token。此外,價格與之前的版本相同,這點很不錯。
- 修復回歸問題: 據 Logan 表示,新版本修復了先前 05/05 版本的一些回歸問題。
基準測試結果
初步的基準測試顯示,Gemini Pro 在幾乎所有基準測試中都領先 O3。在人類最後的考試中表現更好,但在數學方面似乎落後於 O3。尤其在程式碼編輯方面,於 Ader Polyglot 基準測試中,單一模型的表現已達最先進水準,雖然在程式碼生成方面,O3 似乎仍然較佳。
Escaladra 整合
Gemini 2.5 Pro 有一個很棒的功能,就是可以繪製 Escaladra 圖表。只要上傳基準測試分數,並指示它以 Escaladra 風格重新創建,它就能夠完成。這對於需要繪製架構圖的人來說,能大幅改善工作流程,並且能編輯產出的圖表。
實測與問題
透過 AI Studio 的比較模式,可以比較新舊版本的 2.5 Pro。在某些提示下,新版本的表現不如舊版本。例如,某個特定提示下,舊版本只需兩分鐘即可完成,新版本則需要六分鐘,且輸出的程式碼存在錯誤。
- 邏輯推理測試: 在「誤導注意力問題」(misguided attention problems)測試中,Gemini 2.5 Pro 無法識別出 trolley 問題中已經死亡的人。
總結
建議大家親自測試這個模型,並分享您的使用經驗。
11 Labs V3 Alpha
接下來是 11 Labs 新發布的 V3 Alpha,這是一個驚人的文字轉語音系統。它提供更多的控制權,可以從單一文本提示中產生不同類型的音訊。
-
音訊品質: 音訊品質非常棒,可以添加各種表情。
-
應用程式介面 (API): 即將透過 API 提供使用。
-
價格優惠: 6 月期間有 80% 的折扣。
Quen 3:嵌入模型和重排序模型
最後是 Quen 發布的 Quen 3 嵌入模型和 Quen 3 重排序模型。這些模型在檢索系統中扮演關鍵角色,確保檢索到正確的上下文,供 LLM 生成回應。
-
嵌入模型: 負責檢索相關上下文。
-
重排序模型: 過濾掉與使用者問題無關的文本塊。
如果您正在構建 RAG 管道,這兩個模型都非常重要。Quen 3 提供了多種不同大小的模型,最小的為 6B,最大的為 8B。
-
開放原始碼: 這些模型是開放原始碼,可以從 Hugging Face 下載並立即使用。
-
效能: 根據 Quen 分享的基準測試,這些模型在各自的規模中,效能都達到或接近最先進水準。
如果對於使用 Quen 3 的嵌入模型和重排序模型感興趣,請訂閱頻道,我將會製作詳細的影片。
以上就是今天的三大重點發布,希望對您有所幫助。感謝您的觀看,我們下回再見!