Prompt Engineering: Gemini 2.5 Pro挑戰O3！ElevenLabs驚人TTS、Qwen全新RAG模型解析

探索今日AI重大更新！本次重點包括Google的Gemini 2.5 Pro，一款令人驚豔的編碼模型，還有11 Labs的全新文字轉語音系統，以及Quen針對RAG（檢索增強生成）推出的Quen 3 reranker和embedding模型。想知道這些模型的能力和應用嗎？趕快來看看！

Gemini 2.5 Pro: 在編碼能力上有所提升，能夠根據單一提示創建網頁應用，並修正網頁應用，但同時也存在一些有趣的失敗案例。在人文學科考試表現優異，但數學方面稍有落後。
11 Labs V3: 全新的文字轉語音系統，提供更高品質的音訊，並允許使用者控制音訊的表達方式。透過API提供，將於六月推出80%折扣。
Quen 3 reranker & embedding model: 針對RAG應用，推出新的嵌入和重排序模型，協助使用者檢索相關上下文，並過濾無關的文字區塊，提升檢索系統效能。開放原始碼，可直接從Hugging Face下載使用。

今天有三大重點發布，讓我們來一一了解。

Gemini 2.5 Pro

首先是 Gemini 2.5 Pro，在報告的基準測試中展現了令人難以置信的結果。原先的 2.5 Pro 已經是很出色的編碼模型，這次的升級更令人驚喜。例如，可以用單一提示創建網頁應用程式，而且可以透過單一提示調整網頁應用程式，看來能夠確實遵循提示。

初步的基準測試顯示，Gemini Pro 在幾乎所有基準測試中都領先 O3。在人類最後的考試中表現更好，但在數學方面似乎落後於 O3。尤其在程式碼編輯方面，於 Ader Polyglot 基準測試中，單一模型的表現已達最先進水準，雖然在程式碼生成方面，O3 似乎仍然較佳。

Gemini 2.5 Pro 有一個很棒的功能，就是可以繪製 Escaladra 圖表。只要上傳基準測試分數，並指示它以 Escaladra 風格重新創建，它就能夠完成。這對於需要繪製架構圖的人來說，能大幅改善工作流程，並且能編輯產出的圖表。

透過 AI Studio 的比較模式，可以比較新舊版本的 2.5 Pro。在某些提示下，新版本的表現不如舊版本。例如，某個特定提示下，舊版本只需兩分鐘即可完成，新版本則需要六分鐘，且輸出的程式碼存在錯誤。

邏輯推理測試： 在「誤導注意力問題」（misguided attention problems）測試中，Gemini 2.5 Pro 無法識別出 trolley 問題中已經死亡的人。

建議大家親自測試這個模型，並分享您的使用經驗。

接下來是 11 Labs 新發布的 V3 Alpha，這是一個驚人的文字轉語音系統。它提供更多的控制權，可以從單一文本提示中產生不同類型的音訊。

最後是 Quen 發布的 Quen 3 嵌入模型和 Quen 3 重排序模型。這些模型在檢索系統中扮演關鍵角色，確保檢索到正確的上下文，供 LLM 生成回應。

如果您正在構建 RAG 管道，這兩個模型都非常重要。Quen 3 提供了多種不同大小的模型，最小的為 6B，最大的為 8B。

如果對於使用 Quen 3 的嵌入模型和重排序模型感興趣，請訂閱頻道，我將會製作詳細的影片。

以上就是今天的三大重點發布，希望對您有所幫助。感謝您的觀看，我們下回再見！