大會概述
2025 年 Google I/O 大會今晨圓滿落幕,此次大會內容豐富,足以讓一些 AI 公司進行長達兩周的直播。GM9、AI 搜索、Agent、AI 視頻等一系列產品迎來重大更新。本視頻將在 8 分鐘內帶你了解 2025 年 Google I/O 大會的全部內容。
內容創作
視頻相關
在內容創作方面,大會上展示了眾多視頻和電影工具。Google 之前的 VL2 模型在視頻識別方面已有不錯效果,而今日發布的 VL3 模型生成的視頻質量更佳,更符合物理定律。更值得一提的是,它能直接為視頻匹配音效、背景音和人物對話,只需給予提示,視頻中的人物就能開口說話,且嘴型能完美匹配。
圖像生成
此次發布的新圖像生成模型增加了更豐富的層次和更精細的文本。每張圖像都能達到真實世界的 BG 效果,並新增文本布局功能。在文本選擇上,布局看起來更鮮明,還能將文本融入設計元素,可用於製作海報、邀請卡等。
音樂創作
Google 也涉足音樂創作領域。
Flow 工具
結合上述所有功能,Google 打造了一款名為 Flow 的工具,專為創作者設計的 AI 電影創作工具。用戶可以上傳圖片素材或使用內置模型生成圖片,然後給予指令,就能將圖片轉變為 AI 視頻。在製作過程中,可不斷添加新場景和元素,Flow 會自動保持人物和場景的一致性。生成後,還能直接在這裡進行編輯,這將顛覆 AI 製作電影的工作流程。目前,Flow 已向美國的 Ultra 會員用戶開放訂閱。
SenseID 技術
隨著 AI 視頻和圖像技術的爆發,如何識別 AI 內容成為用戶面臨的最大問題。Google 將繼續投資開發 SenseID 技術,這是一種隱藏的數字水印,可嵌入 AI 生成的文本、圖片、音頻和視頻中。目前已有 11 億點內容被添加水印,在 SenseID 工具中能檢測是否包含水印。未來,若不確定某內容是否由 AI 生成,可前往其平台檢查是否含有該水印。AI 內容不應被阻止,而應被標記,期待該技術的廣泛應用。
Gemnet 模型
模型升級
Gemnet 2.5 Pro 和 Flash 進行了升級。2.5 Pro 在 LRM 領域全方位領先,尤其是編程能力,在排行榜上名列第一,甚至通過了經典的寶可夢藍版遊戲,堪稱 AI 世界的遊戲之神。2.5 Flash 作為輕量級模型,在推理、編碼和長上下文處理能力方面有顯著提升,同時在保證質量的前提下更具成本效益,處理相同性能問題時比 Pro 少用 22% 的令牌。
新功能
除了這些升級,Gemnet 還更新了許多實用功能。首先是文本轉語音功能,Google 為 Gemnet 系列推出的新功能能讓機器人像真人一樣說話,除了正常語調,還能低聲說話,並支持 24 種語言的無縫切換,該功能現已可在 GM.NET API 中使用,為獨立開發者和創業公司提供了新的創作空間。
Canvas 功能
Canvas 能將用戶輸入的內容轉換為網頁、信息圖表、博客等多種形式,現已可在 Gemnet 官網使用。模型的思考過程也得到更新,能用關鍵詞和關鍵信息將模型的思考過程整理成清晰的格式,使用戶更清楚地了解模型的思考過程,無需在冗長的回答中尋找重點,能快速判斷思考方向的正誤。
預算功能
Gemini 還更新了預算功能,簡單來說,它能限制 Gemini 模型思考時使用的令牌數量,對於簡單問題減少思考過程,既能控制成本又能更快得到結果,還避免了因思考過多而偏離問題本質。
實際應用
在演示中,面試官用一張桌上有球的圖片,讓 Gemini 2.5 Pro 在幾分鐘內生成了一個功能完美、帶有酷炫 3D 動畫和交互的網絡應用,編程效果令人驚嘆。
Juice 工具
談到編程,Google 還發布了一款 AI 編程工具 Juice,主要供專業開發者使用。它能連接 GitHub,自動提取和提交代碼,每天免費使用五次,目前正在全球測試中,用戶可前往官網申請內測。
AI 搜索
AI Mood
在搜索方面,大會推出了 AI Mood,這是一種全新的搜索體驗,基於 Gemnet 2.5 系列核心,能解決更複雜的搜索問題。對於複雜問題,它會分解成多個小問題,深入網絡結合實時信息,為用戶生成文檔、圖片、連接甚至地圖等多種格式的答案。
個性化搜索
這是一種千人千面的個性化搜索,它會搜索用戶過去的搜索記錄,在獲取用戶授權後,還能連接 Google 郵箱等應用,直接打開 Google 全家桶,結合用戶個人信息,為用戶精準定位搜索結果,並將搜索結果整理成研究報告,報告還能生成直觀的圖表。
初始代理能力
它還具備初始代理能力,例如用戶要求預訂機票,它會自動分析和比較各平台信息,篩選出最佳選擇並幫助用戶完成預訂。此外,它還能重構用戶的購物體驗,比如用戶想買一件衣服並上傳照片,點擊 AI11 就能看到衣服上身的具體效果,與線下購物無異。
視覺能力
最強大的是其視覺能力,用戶現在可以直接打開相機向 AI 提問,它能看到並理解用戶所說的內容,進行實時語音交互。在演示中,用戶故意將垃圾車說成工廠車,將路燈說成建築,AI 看到後會立即糾正。該功能價值巨大,期待其快速發展,例如未來能幫助殘疾人通過視覺功能了解周圍環境,提升生活質量。
硬件產品
Google Beam
在硬件方面,有三款引人注目的產品。首先是 Google 與 Huip 合作推出的名為 Google Beam 的設備,主要用於視頻通話領域。它使用六個攝像頭從不同角度捕捉用戶動作,然後通過 AN 將這些視頻流整合呈現出 3D 效果,就像真人坐在對面與用戶視頻一樣,今年晚些時候將向首批合作夥伴開放使用。
AI 眼鏡
第二款設備是 AI 眼鏡,Google 的 AI 眼鏡終於面世。它內置攝像頭、麥克風和揚聲器,攝像頭模型能檢測用戶所見,還具備實時翻譯功能,在大會上展示了兩人用不同語言交流的場景。
Android XR 設備
此外,Google 還與三星合作打造了 Android XR 設備,今年晚些時候可供購買。
此次大會信息量巨大,每個功能都值得單獨做一期視頻深入解釋。觀看視頻後,若對某項內容感興趣,可在評論區告訴我,後續我將進行深入評測。我是山河,想學習 AI 記得關注我。