Video thumbnail for AI Accelerates: New Gemini Model + AI Unemployment Stories Analysed

Gemini 2.5 Pro稱霸?AI失業潮真相分析!Google最新模型深度評測

Summary

Language:

Quick Abstract

面對眾多關於推特口角的雜音,讓我們聚焦於真正重要的消息:人工智能 (AI) 的加速發展!本次總結將深入探討 Google 最新推出的 Gemini 2.5 Pro,以及它在全球語言模型中的領先地位,並剖析 AI 對就業市場的潛在影響。

  • Gemini 2.5 Pro 在多數基準測試中超越 Claude Opus 4、Grok 3 及 OpenAI 的 O3。

  • Gemini 2.5 Pro 反應速度更快、API 費用更低,且能處理高達 100 萬 tokens 的龐大資料量。

  • Google 執行長認為全面 AGI (通用人工智能) 於 2030 年後才會實現。

  • 儘管 AI 進步神速,初期白領職位消失的說法可能被誇大,需關注 AI 模型的幻覺問題及自我修正能力。

  • Eleven Labs V3 Alpha 帶來音訊技術的新突破,Google Gemini 2.5 Flash 緊追在後。

Gemini 2.5 Pro:領先的語言模型

當大家都專注於諸如 Twitter 口水戰等其他事情時,讓我們把目光投向真正的新聞——加速發展的 AI。尤其是 Google 剛發布了最新版本的 Gemini 2.5 Pro,它無疑是世界上最好的語言模型。在大多數基準測試中,包括我自己的簡單基準測試,它都擊敗了所有其他模型,如 Clawed Opus 4、Grok 3 和 OpenAI 的 O3,儘管我們預計 OpenAI 很快就會推出 O3 Pro。

Gemini 2.5 Pro 不僅反應更快,通過 API 使用更便宜,還能處理多達 100 萬個令牌,是其他模型的四到五倍。然而,在我們過於興奮之前,Google DeepMind 的 CEO Demis Hassabis(負責 Gemini)和 Google 本身的 CEO Sundar Pichai 昨天都表示,他們預計在 2030 年之前不會出現通用人工智能(AGI)。

Gemini 2.5 Pro 的表現與局限

對於那些在播客上收聽的人,請看這裡的兩條線,你認為哪條垂直線最長?Gemini 2.5 Pro 最新版本 0605(如果你不在美國,這個命名方案會讓人非常困惑)最初表示,乍一看,線 A 似乎比線 B 長得多,但這是視覺錯覺,它們的長度相同,甚至後來還建議可以用尺子測量來驗證。但對於收聽的人來說,它們明顯不一樣長。這雖然是個例,但也解釋了為什麼 Sundar Pichai 說在近期到中期,Google 將會招聘更多員工而不是裁員。

Gemini 2.5 Pro 的版本與性能

Gemini 2.5 Pro 並不是 Gemini 2.5 系列中最大最好的版本,最大最好的是 Gemini 2.5 Ultra,但幾乎無人能使用。我們看到的所有破紀錄的基準測試分數都不是來自最大最好的模型。每年 Google 都會投入 10 倍的計算資源,雖然 Gemini 2.5 Pro 能達到 Ultra 模型 80 - 90% 的能力,但 Ultra 模型服務起來更慢、更貴。而 Google 能做到的是讓下一代的 Pro 模型和上一代的 Ultra 模型一樣好,同時還能快速服務用戶。

Gemini 2.5 Pro 的基準測試結果

在未來幾個月,最新版本的 Gemini 2.5 Pro 將成為穩定版本,被數億人使用。讓我們快速看看它的基準測試結果。在右邊,你可以看到 Gemini 2.5 Pro 三個迭代版本的結果,最新版本將在未來幾周內推廣給所有人。在模糊知識方面,通過 Humanity's last exam 測試,它略勝其他模型。在極具挑戰性的科學問題上,它的得分為 86.4%,而相關領域的博士得分約為 60%。在對幻覺的近似衡量方面,它的得分高於其他任何模型。在閱讀圖表、視覺和其他類型的圖形方面,它至少與 O3 相當,而 O3 的成本約為 Gemini 2.5 Pro 的四倍,速度也慢得多。

Gemini 2.5 Pro 在編碼方面的表現

然而,在編碼方面,情況就不太清楚了。在多語言方面,根據 Ada's polyglot 基準測試,Gemini 似乎表現更好。但在更注重軟件工程的方面,如 Sweebench Verified,Claude 似乎仍處於領先地位。作者曾在 Firebase(Google 後端)上連接域名時遇到問題,這更多是與應用程序託管基礎設施有關,但作為 Google 的一部分,本以為 Gemini 會最了解,但最終作者放棄了 Gemini 2.5 Pro(五月版本),而 Clawed for Opus 幾乎立即診斷出了問題。這表明基準測試並不總能反映真實世界的使用情況。

作者的簡單基準測試

作者自己的簡單基準測試(SimpleBench)中,作者原本認為昨天發布的最新版本 Gemini 2.5 Pro 會表現不佳,因為第一個版本(三月)得分为 51.6%,而五月版本很難讓模型完整回答問題,唯一一次回答問題的得分約為 47%。作者甚至有個理論,認為 Google 為編碼和數學進行的強化學習(RL)正在削弱模型的常識。但實際上,昨天測試最新版本時,由於速率限制,未能完成五次完整運行,僅有的四次運行平均得分約為 62%,作者的理論被推翻。

通用人工智能與職場變革

Sundar Pichai 和 Demis Hassabis 將全面通用人工智能的日期定在 2030 年之後。當我們達到人類平均水平無法在任何基於文本的基準測試中擊敗前沿模型的那一刻,我們就跨越了相當重要的界限。

關於工作的文章與分析

最近,有很多關於職場變革的文章在 Twitter 和 Reddit 上瘋傳。《紐約時報》問:知識工作的衰落已經開始了嗎?一位 LinkedIn 高管在《紐約時報》的客座文章中表示,職業階梯的最底層已經開始崩潰。這些故事講的是現在正在發生的事情,而不是三到五年後可能發生的事情。

這些文章相互引用,都提到了美國大學畢業生的失業率自 2022 年 9 月以來上升了 30%,但實際上是從 2% 上升到 2.6%(所有工人的失業率為 4%)。而且從數據來源看,2010 年大學畢業生的失業率為 5%,1992 年為 3.5%。作者並不是在淡化即將到來的影響,只是說現在就說影響已經非常明顯有點過分。

另一篇瘋傳的文章是《幕後:白領大屠殺》,其中大量引用了 Anthropic 的 CEO Dario Amadei 的話。他說 AI 可能在未來一到五年內消滅一半的初級白領工作,雖然很難反駁這種可能性,但他說大多數人不知道這即將發生就有些危險。Anthropic 的其他人,如 Sholto Douglas,則更為肯定,認為到 2027 - 2028 年,幾乎可以保證有模型能夠自動化任何白領工作。

白領自動化的條件

作者認為,白領自動化的必要但不充分條件是消除模型不自糾的幻覺和愚蠢錯誤。如果 2027 年和 2028 年的前沿模型仍有 1% 的機會犯這樣的錯誤,那麼讓人類參與檢查這些錯誤肯定會大大提高生產力。這就是作者在 2023 年提出的「風暴前的平靜」理論,即首先人類將與前沿 AI 互補,大幅提高生產力,所以白領自動化不會像 Amadei 說的那樣在短短幾年內發生。

對比 CEO 言論與現實

作者回憶起兩年前 Sam Altman 說 18 個月到兩年內不會再談論幻覺,但現在《新科學家》報導 AI 幻覺正在變得更糟且將持續存在。還有像 Klarna 曾裁掉客戶服務團隊改用 AI,後又悄悄改變政策重新招聘人類代理,Duolingo 也曾打算依賴 AI 後又改變政策招聘更多人類。這些都說明在前沿語言模型仍難以自糾幻覺時,人類仍能與其互補,對失業率影響有限。

未來的職場變革

然而,可能會有一個轉折點,當模型使用足夠的計算資源,有足夠多樣化的自我糾正方法,最終不再犯愚蠢錯誤,只會錯過訓練數據之外的東西。那時,之前的自滿可能會被迅速打破,而且藍領工作也不會比白領工作更能免受 AI 自動化的影響。

AI 工具的發展

在這一切進行的同時,我們也能使用到一些很棒的 AI 工具,如全新的 Eleven Labs V3 Alpha,它的清晰度很高,能做低語甚至完整的莎士比亞朗讀。但 Google 在 Gemini 2.5 Flash 中的原生文本轉語音也不遑多讓。

感謝觀看,歡迎大家留言分享看法,祝大家有美好的一天。

Was this summary helpful?

Quick Actions

Watch on YouTube

Related Summaries

No related summaries found.

Summarize a New YouTube Video

Enter a YouTube video URL below to get a quick summary and key takeaways.