Video thumbnail for Gemini 2.5 Pro Beats O3 — Big Drops from ElevenLabs & Qwen

Gemini 2.5 Pro挑戰O3!ElevenLabs驚人TTS、Qwen全新RAG模型解析

Summary

Language:

Quick Abstract

探索今日AI重大更新!本次重點包括Google的Gemini 2.5 Pro,一款令人驚豔的編碼模型,還有11 Labs的全新文字轉語音系統,以及Quen針對RAG(檢索增強生成)推出的Quen 3 reranker和embedding模型。想知道這些模型的能力和應用嗎?趕快來看看!

  • Gemini 2.5 Pro: 在編碼能力上有所提升,能夠根據單一提示創建網頁應用,並修正網頁應用,但同時也存在一些有趣的失敗案例。在人文學科考試表現優異,但數學方面稍有落後。

  • 11 Labs V3: 全新的文字轉語音系統,提供更高品質的音訊,並允許使用者控制音訊的表達方式。透過API提供,將於六月推出80%折扣。

  • Quen 3 reranker & embedding model: 針對RAG應用,推出新的嵌入和重排序模型,協助使用者檢索相關上下文,並過濾無關的文字區塊,提升檢索系統效能。開放原始碼,可直接從Hugging Face下載使用。

今天有三大重點發布,讓我們來一一了解。

Gemini 2.5 Pro

效能與編碼能力

首先是 Gemini 2.5 Pro,在報告的基準測試中展現了令人難以置信的結果。原先的 2.5 Pro 已經是很出色的編碼模型,這次的升級更令人驚喜。例如,可以用單一提示創建網頁應用程式,而且可以透過單一提示調整網頁應用程式,看來能夠確實遵循提示。

最新進展

Logan 公布了這個新模型,據稱在人類最後的考試 ADAR 和 GPQA 中,Gemini 2.5 Pro 是最先進的模型。它支援「思考預算」(thinking budget),可以設定思考過程中使用的 token 數量。不過,目前只能取得摘要,無法存取原始的思考 token。此外,價格與之前的版本相同,這點很不錯。

  • 修復回歸問題: 據 Logan 表示,新版本修復了先前 05/05 版本的一些回歸問題。

基準測試結果

初步的基準測試顯示,Gemini Pro 在幾乎所有基準測試中都領先 O3。在人類最後的考試中表現更好,但在數學方面似乎落後於 O3。尤其在程式碼編輯方面,於 Ader Polyglot 基準測試中,單一模型的表現已達最先進水準,雖然在程式碼生成方面,O3 似乎仍然較佳。

Escaladra 整合

Gemini 2.5 Pro 有一個很棒的功能,就是可以繪製 Escaladra 圖表。只要上傳基準測試分數,並指示它以 Escaladra 風格重新創建,它就能夠完成。這對於需要繪製架構圖的人來說,能大幅改善工作流程,並且能編輯產出的圖表。

實測與問題

透過 AI Studio 的比較模式,可以比較新舊版本的 2.5 Pro。在某些提示下,新版本的表現不如舊版本。例如,某個特定提示下,舊版本只需兩分鐘即可完成,新版本則需要六分鐘,且輸出的程式碼存在錯誤。

  • 邏輯推理測試: 在「誤導注意力問題」(misguided attention problems)測試中,Gemini 2.5 Pro 無法識別出 trolley 問題中已經死亡的人。

總結

建議大家親自測試這個模型,並分享您的使用經驗。

11 Labs V3 Alpha

接下來是 11 Labs 新發布的 V3 Alpha,這是一個驚人的文字轉語音系統。它提供更多的控制權,可以從單一文本提示中產生不同類型的音訊。

  • 音訊品質: 音訊品質非常棒,可以添加各種表情。

  • 應用程式介面 (API): 即將透過 API 提供使用。

  • 價格優惠: 6 月期間有 80% 的折扣。

Quen 3:嵌入模型和重排序模型

最後是 Quen 發布的 Quen 3 嵌入模型Quen 3 重排序模型。這些模型在檢索系統中扮演關鍵角色,確保檢索到正確的上下文,供 LLM 生成回應。

  • 嵌入模型: 負責檢索相關上下文。

  • 重排序模型: 過濾掉與使用者問題無關的文本塊。

如果您正在構建 RAG 管道,這兩個模型都非常重要。Quen 3 提供了多種不同大小的模型,最小的為 6B,最大的為 8B。

  • 開放原始碼: 這些模型是開放原始碼,可以從 Hugging Face 下載並立即使用。

  • 效能: 根據 Quen 分享的基準測試,這些模型在各自的規模中,效能都達到或接近最先進水準。

如果對於使用 Quen 3 的嵌入模型和重排序模型感興趣,請訂閱頻道,我將會製作詳細的影片。

以上就是今天的三大重點發布,希望對您有所幫助。感謝您的觀看,我們下回再見!

Was this summary helpful?

Quick Actions

Watch on YouTube

Related Summaries

No related summaries found.

Summarize a New YouTube Video

Enter a YouTube video URL below to get a quick summary and key takeaways.