Video thumbnail for 【人工智能】软件3.0时代到来 | Andrej Karpathy | 软件的三个阶段 | 大模型是操作系统 | 早期操作系统之争 | 局限性 | 部分自治应用 | 双向奔赴 | 可靠性鸿沟

AI軟體3.0時代:Karpathy深度解析大模型、智能體及未來發展趨勢

Summary

Language:

Quick Abstract

探索人工智慧代理 (AI Agent) 的未來發展:別被炒作迷惑!本文精華總結了 Andrej Karpathy 在 AI Startup School 演講中的核心觀點,他提醒大家警惕短期炒作,並系統性地勾勒出未來十年 AI 的發展路徑,特別是數位基礎設施需要經歷的根本性變革。一起深入了解智能體熱潮背後,值得關注的深層邏輯與挑戰!

Quick Takeaways:

  • 軟體發展正經歷 70 年以來最劇烈的範式轉變,從人工編碼的 1.0 時代,到數據編程的 2.0 時代,再到如今大語言模型催生的 3.0 時代。

  • 大語言模型可被視為一種全新的作業系統,OpenAI 等公司就像電力公司,提供「智能發電廠」服務。

  • 大語言模型具有知識儲備豐富、短期記憶強大、跨領域泛化能力等優勢,但也存在幻覺、智能不均、順行性遺忘症、安全性脆弱等缺陷。

  • 現階段的最佳策略是開發「部分自治應用」,構建人機協作的新範式,而非追求不切實際的全自動化。

  • 數位基礎設施需要為 AI 智能體進行改造,例如創建機器可讀的 lm txt 文件,將文檔改造成雙語模式,以及構建橋梁工具等。

  • 警惕「2025 年是智能體元年」的炒作,避免盲目追求全自動化產品,應以十年為尺度耐心發展。

AI 行业的热门论断与卡帕西的冷水

2025 年,AI 行业最热门的说法莫过于“智能体之年”,几乎所有行业会议和媒体报道都在重复这一观点,仿佛智能体即将遍布互联网,帮助我们完成所有工作。然而,在这股狂热氛围中,安德烈·卡帕西在旧金山 AI Startup School 的演讲中泼了一盆冷水。他不仅提醒我们警惕短期炒作,还系统性地勾勒出未来十年 AI 的发展路径,指出数字基础设施需经历根本性变革。

软件行业的三次范式转变

软件 1.0:人类编写代码的手工时代

软件发展的第一阶段是 1.0 时代,即人类编写代码的手工时代。此时计算机如同严格遵循指令的机器,每一行代码都由人类程序员精心编写,从早期的 FORTRAN 语言到如今的 Python、Java 皆是如此。程序员用精确语法告诉计算机“怎么做”,GitHub 上数以亿计的代码库就是这个时代的辉煌成果。但这种模式存在明显局限,人类思维速度和代码复杂程度形成瓶颈,复杂功能需成百上千行代码,需求变化时修改成本极高。

软件 2.0:由神经网络开启的数据编程时代

第二阶段是 2.0 时代,由神经网络开启的数据编程时代。深度学习兴起后,时代核心不再是人类编写的显式代码,而是通过数据训练生成的神经网络权重。例如图像识别模型 AlexNet,并非程序员逐行编写识别规则,而是通过数百万张图片训练,让模型自己“学会”识别特征。当时很多人仅把神经网络当作高级分类器,忽略了其代表的范式革命。如今的 Hugging Face Model Atlas 等平台,如同 2.0 时代的 GitHub,存储的是训练好的模型,开发者可直接调用这些“数据编写的程序”。

软件 3.0:大语言模型催生的时代

第三阶段是如今大语言模型催生的软件 3.0 时代,这是最具颠覆性的变革。神经网络从专用工具变成通用计算机,我们与其交互的语言是人类日常使用的自然语言。以前做情感分类需写代码或训练特定模型,现在只需给大语言模型一个提示,让它直接判断文本情感倾向。这种用自然语言编程的方式,使编程门槛降到历史最低,几乎人人都能成为“程序员”,即所谓的“提示工程”。

大语言模型的本质:全新的操作系统

为帮助理解大语言模型本质,卡帕西将其比作全新操作系统,这一类比包含多层含义,揭示了大语言模型在技术生态中的核心地位。

类比电力公司

OpenAI、DeepMind 等公司如同电力公司,投入巨资建设智能发电厂(AI 数据工厂)训练大模型,然后通过 API 向用户提供服务和收费。用户对大语言模型的需求类似电力,需要低延迟、高可靠性,甚至出现了 OpenRouter 这样的“智能转换开关”,让用户可在不同模型间无缝切换。多个大模型同时宕机,如同全球范围的“智能断电”,会影响整个数字世界运转。

技术架构类比

大语言模型本身像计算机 CPU,负责核心推理;上下文窗口相当于内存,存储当前任务相关信息;围绕大语言模型构建的整个系统,如同操作系统调度资源,完成多步骤任务。例如处理复杂数据分析请求,大模型需先读取数据,然后执行计算,最后输出结果。这种架构正重新定义软件构建方式,以前需多个模块配合的任务,现在可通过大模型上下文协调完成。

市场格局类比

当前大模型市场格局类似早期操作系统之争,既有闭源商业巨头如 GPT - 4、PaLM,也有开源挑战者如 Llama 生态,像当年的 Windows 与 Linux。闭源系统凭借技术优势占据主流,开源社区通过协作快速创新,这种双轨制发展推动大模型生态不断进化,保证商业落地稳定性的同时,保持技术创新活力。

大语言模型的优势与局限性

优势

大语言模型优势明显。知识储备方面,训练数据覆盖整个互联网级别的文本,包含人类历史上几乎所有公开知识,这是单个学者无法比拟的。其次是上下文窗口代表的强大短期记忆,虽长期记忆(模型权重)固定,但单次交互中,模型能处理数万 token 的信息,相当于瞬间记住一本厚书内容。最后是跨领域泛化能力,得益于通用训练方式,大语言模型在代码编写和创意写作等领域都展现出惊人能力。

局限性

但大模型缺陷也十分显著。一是“幻觉”问题,会编造不存在的事实,无法区分真实与虚构概念,如坚持说“爱因斯坦获得过三次诺贝尔奖”,实际爱因斯坦只获得过一次。二是“锯齿状的智能”,在某些领域表现出专家级能力,在另一些简单问题上却易犯低级错误。三是“顺行性遗忘症”,每次交互后都会重置上下文,无法像人类一样积累经验,必须依赖外部记忆工具。四是安全性脆弱,容易受到提示注入攻击,通过恶意指令让模型泄露敏感信息,在实际应用中构成重大风险。

应对大语言模型不完美的策略:开发部分自治应用

面对大语言模型的不完美,卡帕西提出开发“部分自治应用”,构建人机协作新范式,而非追求不切实际的全自动化。

Cursor 案例

以代码编辑器 Cursor 为例,它展现了部分自治应用的核心特征。首先是智能上下文管理,自动将整个代码库信息嵌入模型,让模型理解项目全貌;其次是多模型编排,可同时调用聊天模型、代码 Diff 工具等,实现复杂功能;最重要的是专用界面设计,通过可视化代码高亮对比,让用户快速审查 AI 建议,并用快捷键轻松选择接受或拒绝。还有关键的“自治程度滑块”设计,用户可根据任务风险等级调整 AI 自主权,在安全和效率间找到最佳平衡点。

Perplexity 案例

另一个案例是 Perplexity,在信息检索中应用类似逻辑。通过打包多个来源信息,调用多个模型交叉验证,再通过带有来源引用的界面设计,让用户方便查看推理过程,从低自治程度的快速搜索到高自治程度的深度分析都能灵活切换。

人机协作的关键

这些应用共同点是不追求 AI 独立完成所有任务,而是让人类专注决策和验证,AI 负责重复性、规律性工作,形成高效协作闭环。人机协作关键在于利用人类视觉处理和逻辑判断优势,如界面中的可视化反馈,让用户毫秒级识别 AI 输出正确性,比纯文本效率高无数倍。“自治滑块”设计符合心理学中的“控制感”需求,用户不会因 AI 不可控而焦虑,反而能通过分级授权逐步建立信任。这种模式不仅适用于工具类应用,未来还会渗透到几乎所有软件领域。

大语言模型带来的新问题:部署成为瓶颈

卡帕西分享开发 MenuGen 应用的经历时指出,大语言模型让编码变得前所未有的简单,但部署成为新瓶颈。作为几乎没用过 Swift 语言的开发者,他通过大模型几小时就能完成应用核心功能,传统开发可能需几周。这种“氛围编程”现象让任何人都能快速将想法转化为可运行代码,极大降低创新门槛。但从 Demo 到产品转化阶段,他花费整整一周处理 DevOps 任务,包括用户认证、支付集成、域名配置、云端部署等,这些繁琐手动操作与 AI 带来的效率提升形成强烈反差。

数字基础设施的问题与解决方案

问题所在

根本原因在于现有的数字基础设施是为两类用户设计的,即通过界面操作的人类和通过 API 交互的传统程序。AI 智能体作为第三类用户,既不像人类依赖视觉点击,也不像传统程序依赖固定 API,它们需要机器可读的结构化信息。但我们的网站、云平台到处是复杂的 HTML 和手动配置流程,对 AI 如同迷宫。例如让 AI 填写网页表单,它需解析网页视觉元素、定位点击位置,这种模拟人类操作的方式低效且易错,成为 AI 创新落地“最后一公里”的障碍。

解决方案

针对这一结构性问题,卡帕西提出系统性解决方案,核心思想是“双向奔赴”。

  • 创建 lm txt 文件:类似网站的 robots txt,专门为 AI 智能体设计。可用简洁 Markdown 语言说明网站功能、操作接口和数据结构,如“本网站提供天气查询服务,可通过/api/weather? city=[城市名]获取数据”。相比让 AI 解析复杂网页 DOM 结构,这种直接的机器语言交互能将交互效率提升几个数量级。

  • 文档改造为“双语模式”:现有的很多文档充满面向人类的操作指令,对 AI 毫无意义。建议将文档改造成既有人类可读步骤说明,也包含 AI 可执行的 API 调用或命令行指令的“双语模式”。Vercel 和 Stripe 已开始提供为大模型专门优化过的文档,将操作指南转化为结构化 API 文档,让 AI 能直接解析并执行部署流程。这种文档转型不仅方便智能体,也能提升人类开发者效率。

  • 构建桥梁工具:将现有的以人类为中心的信息转化为对 AI 友好的格式。例如有些工具能将 GitHub 仓库页面转换为包含完整目录结构的纯文本块,让大语言模型无需解析网页就能分析代码;还有工具能将 Excel 表格的可视化数据转化为结构化的 JSON,方便 AI 进行数据分析。这些工具解决了智能体与现存系统交互的核心障碍,让遗留系统无需大的、彻底的重构就能接入 AI 生态。

卡帕西强调,未来多模态模型可能学会模拟人类点击行为,但这是昂贵且低效的路径,不如改造界面适应 AI。人类主动迈出 50%,提供机器可读接口、结构化文档、翻译工具,AI 就能用剩下的 50%完成更多高效交互,极大加速智能体落地。

对行业的警示与产品策略

演讲最后,卡帕西用在自动驾驶行业的亲身经历对整个行业发出警示。2013 年他体验到 Waymo 近乎完美的自动驾驶演示,当时认为商业化指日可待,却没想到 12 年后仍未完全解决,这说明技术演示与实际产品间存在巨大“可靠性鸿沟”,智能体发展同样需要以十年为尺度的耐心。

针对“2025 年是智能体元年”的说法,他明确表示担忧,这种炒作易让创业者忽视底层基础设施缺失,盲目追求全自动化产品,最终陷入落地困境。历史经验表明,任何颠覆性技术都需经历“期望膨胀期 - 泡沫破裂期 - 稳步发展期”的阶段,AI 智能体也不例外。

他用钢铁侠战衣类比现阶段产品策略,钢铁侠战衣既有托尼·斯塔克直接操控的增强模式,也有自主战斗的智能模式。当前大模型更适合作为增强工具,通过优秀人机接口让人类高效监督 AI,而非追求不可控的全自主系统。这种“部分自治”策略能发挥大模型优势,规避其缺陷,是最务实的发展路径。

AI 革命的独特之处与我们的应对

这次 AI 革命独特之处在于,大语言模型不像电力、计算机那样首先掌握在政府或巨头手中,而是通过互联网快速普及到全球数十亿用户,每个人都能通过提示工程参与编程,每个创业者都有机会在新基础设施上构建新应用,这是一场真正的全民技术革命,我们正站在历史转折点上。

作为开发者和观察者,我们既要拥抱大语言模型带来的效率革命,也要警惕炒作陷阱,脚踏实地构建真正可用的技术生态,这或许不是最令人兴奋的路径,但可能是通往 AI 未来最可靠的必经之路。

以上就是安德烈·卡帕西这次演讲的主要内容。感谢观看,下期再见。

Was this summary helpful?

Quick Actions

Watch on YouTube

Related Summaries

Summarize a New YouTube Video

Enter a YouTube video URL below to get a quick summary and key takeaways.