前言
大家好,欢迎来到《鬼谷子 101》。我是洪钧。每年五月,谷歌都会在总部举办 Google I.O.,这是一场面对面的开发者盛会,谷歌会借此发布一系列新产品。疫情后,洪钧基本每年都会参加。本文将围绕今年的 Google I.O.,深入探讨谷歌在大模型领域的表现、面临的挑战以及未来的发展趋势。
Google I.O. 回顾
过去两年的情况
-
2023 年:谷歌正式挑战 ChatGPT,推出聊天机器人 Bard。然而,Bard 在回答关于詹姆斯·韦伯太空望远镜新发现的问题时出错,导致谷歌市值一夜蒸发超 10 亿美元。
-
2024 年:OpenAI 推出的 4O 模型震惊世界,甚至有外媒称这是 OpenAI 故意攻击谷歌。
今年的突破
今年,谷歌可谓突破重围,打了一场漂亮仗。在本次大会上,其模型部分的 Gemini 2.5 模型表现出色。
深入剖析谷歌大模型 Gemini
大模型的灵魂
本集将仔细研究谷歌大模型 Gemini 的核心,探讨谷歌的 AI 模式能否应对大模型对搜索的冲击,以及华尔街如何看待谷歌在股市中的地位。
嘉宾介绍
-
Kemi Kong:Cambio ML 的联合创始人。曾在 DeepMind 工作,现负责 Cambio ML 的技术研发,该公司的主要产品是 AI 代理 Anagen.ai。
-
Sean Way:HeyReview 的创始人,曾在谷歌担任语音助理。HeyReview 是一家专注于美国医疗领域 AI 联络中心的公司。
Google I.O. 令人印象深刻的内容
Sean Way 的观点
- 模型与产品的整合:谷歌将整个模型与产品的广度和深度进行了整合。从 Gemini 2.5 Pro 多模态模型,到 Imogen 图像生成模型,再到 Vue 视频生成模型,提供了能完成多种任务的模型。这不仅是云端的搜索服务,还涉及 Android 上的 XR,展示了谷歌未来在不同方向的雄心。
Shuang 的观点
-
文本到视频:对文本到视频功能印象深刻。之前在这方面有很多尝试,如今在谷歌大会上看到了从想法到视频的真正实现。
-
AI 助手:作为前谷歌助手成员,一直期待有真正的 AI 陪伴用户解决各种问题。如今 Gemini 终于实现了十年前的愿景。
谷歌搜索的变革
AI 模式的推出
谷歌将整个商业模式搜索入口的搜索引擎改为 AI 模式,将搜索入口与大模型结合。在传统搜索框中增加了 AI 模式标签,用户提问时能得到准确答案,甚至能完成一键下单等操作。
对谷歌生态和商业模式的影响
-
Kemi Kong 的看法:
-
搜索的重要性:搜索是全球最赚钱的业务之一,微软 CEO 萨提亚·纳德拉曾表示因微软未做好搜索而遗憾。
-
谷歌的能力与意愿:谷歌在科技公司中最有可能做好 AI 搜索,但存在创新困境。目前谷歌有两个相关产品,分别是 Google.com 上的 AI 模式和 Gemini.google.com,这涉及不同业务部门的整合,关键在于谷歌的意愿以及如何利用 AI 搜索创造新的商业收入。
-
大模型的要素:大模型要做好任务,模型能力、用户指令理解能力以及工具使用都很重要。谷歌拥有大量搜索入口流量和最好的搜索引擎,有能力将 AI 搜索做到极致。
-
-
Sean Way 的看法:
-
测试体验:在 AI 模式发布前进行了测试,并与 Perplexity 和 OpenAI Search 进行了比较。从效果看,AI 模式对上下文理解能力有很大提升,但当时 OpenAI Adsense 的搜索效果更好。
-
商业模式变革:谷歌搜索的广告收入是最稳定的收入来源,AI 模式彻底改变了传统广告和营销模式,是过去 10 年搜索领域最大的变化。
-
购物场景下的 AI 模式
场景演示
谷歌在 IOS 上展示了一个购物场景,用户描述想买的裙子,谷歌搜索相关网站,比较价格,还能通过照片展示试穿效果,最后一键下单。
面临的问题与思考
-
用户隐私:用户需要输入电商网站密码才能完成订单,这涉及隐私问题。
-
商业模式:新的 AI 模式下,广告收费方式、服务器成本增加、搜索结果密度变化对 SEO 的影响以及如何跟踪商品价格等都是需要思考的问题。
谷歌在大模型竞争中的优势
数据优势
谷歌拥有大量数据,包括网站索引、YouTube 视频、用户邮箱等信息,这使其在个性化定制方面非常强大。
知识图谱与个人信息结合
谷歌的使命是组织全球信息,拥有世界上最好的知识图谱。将世界信息与个人信息结合,为其提供了强大的基础。
分发优势
谷歌拥有 Android 和 Chrome 等强大的分发系统,这是其独特的优势。
Gemini 2.5 模型的更新
模型提升的原因
-
对齐与强化学习:今年大家在对齐方面花费了更多时间,尤其是在强化学习与人类反馈、强化学习与 AI 反馈方面。谷歌基于之前 Gemini 系列的基础点,加强了这方面的训练。
-
创新尝试:在对齐过程中,各团队有不同的优先级,通过创新和整合,提升了模型在编码、数学等确定性任务上的表现。
代码质量提升
- 不同公司的策略:Anthropic 将编码作为首要任务,在早期阶段加入更多高质量代码,使其模型在编码方面更敏捷。谷歌则在追赶 OpenAI 满足用户偏好的同时,注重提升代码质量和推理能力。
谷歌模型背后的关键人物
灵魂人物
Jeff Dean 和 Aurel 被认为是谷歌的灵魂人物。Jeff Dean 擅长预训练,Aurel 对强化学习有深刻理解,他们的结合使谷歌能够快速追赶竞争对手。此外,Novel Shazier 的回归也为谷歌带来了更深入的 NLP 能力。
团队关系与管理
-
团队整合:Google Brain 和 DeepMind 合并前走的是不同路径,合并后实现了优势互补。
-
Demis 的作用:Demis 在整合两个公司、统一目标方面发挥了重要作用,使大家朝着 AGI 的目标共同努力。
谷歌的价格策略与模型选择
价格优势
谷歌的 API 访问成本和 token 成本很低,这得益于其长期投资的硬件生态(如 TPU)、强大的基础设施以及软硬件的协同优化。
模型选择
-
合适即最好:选择模型时没有绝对的最好,只有最适合当前任务的。需要考虑任务类型、延迟、稳定性、成本等因素。
-
动态调整:根据不同模型的表现和需求,随时调整和切换底层模型。
语言翻译与产品测试
实时语言翻译
谷歌推出的实时语言翻译功能,如 Google Meet 中的英语到西班牙语实时翻译,以及 Flash 2.5 基于文本生成 20 多种语言的功能。但要使生成的语音自然流畅,仍存在一定门槛。
产品测试的核心
- 建模与工程能力:对于直接面向用户的产品,建模能力是基础,工程能力决定了产品的上限。不同公司根据自身定位和优先级,在这两方面有所侧重。
大模型竞争下的影响与展望
对创业公司的影响
随着大模型的发展,一些创业公司可能会受到冲击。例如,谷歌在虚拟试衣等领域的展示,可能会对相关创业公司造成影响。
谷歌的优势与产品策略
-
优势总结:谷歌在硬件生态、服务器基础、数据、算法等方面具有显著优势。
-
产品策略:谷歌围绕 Gemini 构建生态系统,同时推出多个产品,一旦发现有潜力的产品,就会集中资源进行发展。
结语
经过多轮 AI 竞争,大模型领域已进入你追我赶的阶段。在这场竞争中,如何综合评估 AI 巨头的竞争力是关键。下一集将探讨华尔街如何看待谷歌在七大巨头中的地位。
{#
{#
{#