最佳拍档: AI軟體3.0時代：Karpathy深度解析大模型、智能體及未來發展趨勢

探索人工智慧代理 (AI Agent) 的未來發展：別被炒作迷惑！本文精華總結了 Andrej Karpathy 在 AI Startup School 演講中的核心觀點，他提醒大家警惕短期炒作，並系統性地勾勒出未來十年 AI 的發展路徑，特別是數位基礎設施需要經歷的根本性變革。一起深入了解智能體熱潮背後，值得關注的深層邏輯與挑戰！

Quick Takeaways:

軟體發展正經歷 70 年以來最劇烈的範式轉變，從人工編碼的 1.0 時代，到數據編程的 2.0 時代，再到如今大語言模型催生的 3.0 時代。
大語言模型可被視為一種全新的作業系統，OpenAI 等公司就像電力公司，提供「智能發電廠」服務。
大語言模型具有知識儲備豐富、短期記憶強大、跨領域泛化能力等優勢，但也存在幻覺、智能不均、順行性遺忘症、安全性脆弱等缺陷。
現階段的最佳策略是開發「部分自治應用」，構建人機協作的新範式，而非追求不切實際的全自動化。
數位基礎設施需要為 AI 智能體進行改造，例如創建機器可讀的 lm txt 文件，將文檔改造成雙語模式，以及構建橋梁工具等。
警惕「2025 年是智能體元年」的炒作，避免盲目追求全自動化產品，應以十年為尺度耐心發展。

AI 行业的热门论断与卡帕西的冷水

2025 年，AI 行业最热门的说法莫过于“智能体之年”，几乎所有行业会议和媒体报道都在重复这一观点，仿佛智能体即将遍布互联网，帮助我们完成所有工作。然而，在这股狂热氛围中，安德烈·卡帕西在旧金山 AI Startup School 的演讲中泼了一盆冷水。他不仅提醒我们警惕短期炒作，还系统性地勾勒出未来十年 AI 的发展路径，指出数字基础设施需经历根本性变革。

软件行业的三次范式转变

软件 1.0：人类编写代码的手工时代

软件发展的第一阶段是 1.0 时代，即人类编写代码的手工时代。此时计算机如同严格遵循指令的机器，每一行代码都由人类程序员精心编写，从早期的 FORTRAN 语言到如今的 Python、Java 皆是如此。程序员用精确语法告诉计算机“怎么做”，GitHub 上数以亿计的代码库就是这个时代的辉煌成果。但这种模式存在明显局限，人类思维速度和代码复杂程度形成瓶颈，复杂功能需成百上千行代码，需求变化时修改成本极高。

软件 2.0：由神经网络开启的数据编程时代

第二阶段是 2.0 时代，由神经网络开启的数据编程时代。深度学习兴起后，时代核心不再是人类编写的显式代码，而是通过数据训练生成的神经网络权重。例如图像识别模型 AlexNet，并非程序员逐行编写识别规则，而是通过数百万张图片训练，让模型自己“学会”识别特征。当时很多人仅把神经网络当作高级分类器，忽略了其代表的范式革命。如今的 Hugging Face Model Atlas 等平台，如同 2.0 时代的 GitHub，存储的是训练好的模型，开发者可直接调用这些“数据编写的程序”。

软件 3.0：大语言模型催生的时代

第三阶段是如今大语言模型催生的软件 3.0 时代，这是最具颠覆性的变革。神经网络从专用工具变成通用计算机，我们与其交互的语言是人类日常使用的自然语言。以前做情感分类需写代码或训练特定模型，现在只需给大语言模型一个提示，让它直接判断文本情感倾向。这种用自然语言编程的方式，使编程门槛降到历史最低，几乎人人都能成为“程序员”，即所谓的“提示工程”。

大语言模型的本质：全新的操作系统

为帮助理解大语言模型本质，卡帕西将其比作全新操作系统，这一类比包含多层含义，揭示了大语言模型在技术生态中的核心地位。

类比电力公司

OpenAI、DeepMind 等公司如同电力公司，投入巨资建设智能发电厂（AI 数据工厂）训练大模型，然后通过 API 向用户提供服务和收费。用户对大语言模型的需求类似电力，需要低延迟、高可靠性，甚至出现了 OpenRouter 这样的“智能转换开关”，让用户可在不同模型间无缝切换。多个大模型同时宕机，如同全球范围的“智能断电”，会影响整个数字世界运转。

技术架构类比

大语言模型本身像计算机 CPU，负责核心推理；上下文窗口相当于内存，存储当前任务相关信息；围绕大语言模型构建的整个系统，如同操作系统调度资源，完成多步骤任务。例如处理复杂数据分析请求，大模型需先读取数据，然后执行计算，最后输出结果。这种架构正重新定义软件构建方式，以前需多个模块配合的任务，现在可通过大模型上下文协调完成。

市场格局类比

当前大模型市场格局类似早期操作系统之争，既有闭源商业巨头如 GPT - 4、PaLM，也有开源挑战者如 Llama 生态，像当年的 Windows 与 Linux。闭源系统凭借技术优势占据主流，开源社区通过协作快速创新，这种双轨制发展推动大模型生态不断进化，保证商业落地稳定性的同时，保持技术创新活力。

大语言模型的优势与局限性

优势

大语言模型优势明显。知识储备方面，训练数据覆盖整个互联网级别的文本，包含人类历史上几乎所有公开知识，这是单个学者无法比拟的。其次是上下文窗口代表的强大短期记忆，虽长期记忆（模型权重）固定，但单次交互中，模型能处理数万 token 的信息，相当于瞬间记住一本厚书内容。最后是跨领域泛化能力，得益于通用训练方式，大语言模型在代码编写和创意写作等领域都展现出惊人能力。

局限性

但大模型缺陷也十分显著。一是“幻觉”问题，会编造不存在的事实，无法区分真实与虚构概念，如坚持说“爱因斯坦获得过三次诺贝尔奖”，实际爱因斯坦只获得过一次。二是“锯齿状的智能”，在某些领域表现出专家级能力，在另一些简单问题上却易犯低级错误。三是“顺行性遗忘症”，每次交互后都会重置上下文，无法像人类一样积累经验，必须依赖外部记忆工具。四是安全性脆弱，容易受到提示注入攻击，通过恶意指令让模型泄露敏感信息，在实际应用中构成重大风险。

应对大语言模型不完美的策略：开发部分自治应用

面对大语言模型的不完美，卡帕西提出开发“部分自治应用”，构建人机协作新范式，而非追求不切实际的全自动化。

Cursor 案例

以代码编辑器 Cursor 为例，它展现了部分自治应用的核心特征。首先是智能上下文管理，自动将整个代码库信息嵌入模型，让模型理解项目全貌；其次是多模型编排，可同时调用聊天模型、代码 Diff 工具等，实现复杂功能；最重要的是专用界面设计，通过可视化代码高亮对比，让用户快速审查 AI 建议，并用快捷键轻松选择接受或拒绝。还有关键的“自治程度滑块”设计，用户可根据任务风险等级调整 AI 自主权，在安全和效率间找到最佳平衡点。

Perplexity 案例

另一个案例是 Perplexity，在信息检索中应用类似逻辑。通过打包多个来源信息，调用多个模型交叉验证，再通过带有来源引用的界面设计，让用户方便查看推理过程，从低自治程度的快速搜索到高自治程度的深度分析都能灵活切换。

人机协作的关键

这些应用共同点是不追求 AI 独立完成所有任务，而是让人类专注决策和验证，AI 负责重复性、规律性工作，形成高效协作闭环。人机协作关键在于利用人类视觉处理和逻辑判断优势，如界面中的可视化反馈，让用户毫秒级识别 AI 输出正确性，比纯文本效率高无数倍。“自治滑块”设计符合心理学中的“控制感”需求，用户不会因 AI 不可控而焦虑，反而能通过分级授权逐步建立信任。这种模式不仅适用于工具类应用，未来还会渗透到几乎所有软件领域。

大语言模型带来的新问题：部署成为瓶颈

卡帕西分享开发 MenuGen 应用的经历时指出，大语言模型让编码变得前所未有的简单，但部署成为新瓶颈。作为几乎没用过 Swift 语言的开发者，他通过大模型几小时就能完成应用核心功能，传统开发可能需几周。这种“氛围编程”现象让任何人都能快速将想法转化为可运行代码，极大降低创新门槛。但从 Demo 到产品转化阶段，他花费整整一周处理 DevOps 任务，包括用户认证、支付集成、域名配置、云端部署等，这些繁琐手动操作与 AI 带来的效率提升形成强烈反差。

数字基础设施的问题与解决方案

问题所在

根本原因在于现有的数字基础设施是为两类用户设计的，即通过界面操作的人类和通过 API 交互的传统程序。AI 智能体作为第三类用户，既不像人类依赖视觉点击，也不像传统程序依赖固定 API，它们需要机器可读的结构化信息。但我们的网站、云平台到处是复杂的 HTML 和手动配置流程，对 AI 如同迷宫。例如让 AI 填写网页表单，它需解析网页视觉元素、定位点击位置，这种模拟人类操作的方式低效且易错，成为 AI 创新落地“最后一公里”的障碍。

解决方案

针对这一结构性问题，卡帕西提出系统性解决方案，核心思想是“双向奔赴”。

创建 lm txt 文件：类似网站的 robots txt，专门为 AI 智能体设计。可用简洁 Markdown 语言说明网站功能、操作接口和数据结构，如“本网站提供天气查询服务，可通过/api/weather? city=[城市名]获取数据”。相比让 AI 解析复杂网页 DOM 结构，这种直接的机器语言交互能将交互效率提升几个数量级。
文档改造为“双语模式”：现有的很多文档充满面向人类的操作指令，对 AI 毫无意义。建议将文档改造成既有人类可读步骤说明，也包含 AI 可执行的 API 调用或命令行指令的“双语模式”。Vercel 和 Stripe 已开始提供为大模型专门优化过的文档，将操作指南转化为结构化 API 文档，让 AI 能直接解析并执行部署流程。这种文档转型不仅方便智能体，也能提升人类开发者效率。
构建桥梁工具：将现有的以人类为中心的信息转化为对 AI 友好的格式。例如有些工具能将 GitHub 仓库页面转换为包含完整目录结构的纯文本块，让大语言模型无需解析网页就能分析代码；还有工具能将 Excel 表格的可视化数据转化为结构化的 JSON，方便 AI 进行数据分析。这些工具解决了智能体与现存系统交互的核心障碍，让遗留系统无需大的、彻底的重构就能接入 AI 生态。

卡帕西强调，未来多模态模型可能学会模拟人类点击行为，但这是昂贵且低效的路径，不如改造界面适应 AI。人类主动迈出 50%，提供机器可读接口、结构化文档、翻译工具，AI 就能用剩下的 50%完成更多高效交互，极大加速智能体落地。

对行业的警示与产品策略

演讲最后，卡帕西用在自动驾驶行业的亲身经历对整个行业发出警示。2013 年他体验到 Waymo 近乎完美的自动驾驶演示，当时认为商业化指日可待，却没想到 12 年后仍未完全解决，这说明技术演示与实际产品间存在巨大“可靠性鸿沟”，智能体发展同样需要以十年为尺度的耐心。

针对“2025 年是智能体元年”的说法，他明确表示担忧，这种炒作易让创业者忽视底层基础设施缺失，盲目追求全自动化产品，最终陷入落地困境。历史经验表明，任何颠覆性技术都需经历“期望膨胀期 - 泡沫破裂期 - 稳步发展期”的阶段，AI 智能体也不例外。

他用钢铁侠战衣类比现阶段产品策略，钢铁侠战衣既有托尼·斯塔克直接操控的增强模式，也有自主战斗的智能模式。当前大模型更适合作为增强工具，通过优秀人机接口让人类高效监督 AI，而非追求不可控的全自主系统。这种“部分自治”策略能发挥大模型优势，规避其缺陷，是最务实的发展路径。

AI 革命的独特之处与我们的应对

这次 AI 革命独特之处在于，大语言模型不像电力、计算机那样首先掌握在政府或巨头手中，而是通过互联网快速普及到全球数十亿用户，每个人都能通过提示工程参与编程，每个创业者都有机会在新基础设施上构建新应用，这是一场真正的全民技术革命，我们正站在历史转折点上。

作为开发者和观察者，我们既要拥抱大语言模型带来的效率革命，也要警惕炒作陷阱，脚踏实地构建真正可用的技术生态，这或许不是最令人兴奋的路径，但可能是通往 AI 未来最可靠的必经之路。

以上就是安德烈·卡帕西这次演讲的主要内容。感谢观看，下期再见。

AI軟體3.0時代：Karpathy深度解析大模型、智能體及未來發展趨勢

Summary

Quick Abstract

AI 行业的热门论断与卡帕西的冷水

软件行业的三次范式转变

软件 1.0：人类编写代码的手工时代

软件 2.0：由神经网络开启的数据编程时代

软件 3.0：大语言模型催生的时代

大语言模型的本质：全新的操作系统

类比电力公司

技术架构类比

市场格局类比

大语言模型的优势与局限性

优势

局限性

应对大语言模型不完美的策略：开发部分自治应用

Cursor 案例

Perplexity 案例

人机协作的关键

大语言模型带来的新问题：部署成为瓶颈

数字基础设施的问题与解决方案

问题所在

解决方案

对行业的警示与产品策略

AI 革命的独特之处与我们的应对

Quick Actions

More from 最佳拍档

【人工智能】击败大模型推理的非确定性 | Thinking Machines | 批次不变性缺失 | 浮点数非结合性 | 归约化顺序 | 批次不变内核 | RMSNorm | 矩阵乘法 | 注意力机制

【人工智能】AI构建者手册2025 | ICONIQ发布68页报告| AI原生公司 | AI赋能公司 | 代理工作流 | 基础设施 | 市场定价 | 团队结构 | 成本预算 | 内部效率

【商业】算力新锐CoreWeave即将IPO | 挖矿前身 | AI转机 | 151亿美元RPO | 预期能否兑现 | 软硬件实力 | 英伟达深度绑定 | 营收和亏损双增 | 市场竞争和风险

Related Summaries

【人工智能】击败大模型推理的非确定性 | Thinking Machines | 批次不变性缺失 | 浮点数非结合性 | 归约化顺序 | 批次不变内核 | RMSNorm | 矩阵乘法 | 注意力机制

【人工智能】AI构建者手册2025 | ICONIQ发布68页报告| AI原生公司 | AI赋能公司 | 代理工作流 | 基础设施 | 市场定价 | 团队结构 | 成本预算 | 内部效率

【商业】算力新锐CoreWeave即将IPO | 挖矿前身 | AI转机 | 151亿美元RPO | 预期能否兑现 | 软硬件实力 | 英伟达深度绑定 | 营收和亏损双增 | 市场竞争和风险

【英伟达】Tensor Core演进史 | SemiAnalysis | Amdahl定律 | 强、弱缩放 | Volta | Turing | Ampere | Blackwell | 结构化稀疏

【爆料】非营利组织猛爆Sam Altman黑料 | OpenAI Files | 冒充YC董事长 | 涉嫌利益输送 | 架空OpenAI董事会 | 取消投资回报上限 | 隐瞒持股 | 欺骗和隐瞒

【人工智能】击败大模型推理的非确定性 | Thinking Machines | 批次不变性缺失 | 浮点数非结合性 | 归约化顺序 | 批次不变内核 | RMSNorm | 矩阵乘法 | 注意力机制

【人工智能】AI构建者手册2025 | ICONIQ发布68页报告| AI原生公司 | AI赋能公司 | 代理工作流 | 基础设施 | 市场定价 | 团队结构 | 成本预算 | 内部效率

Summarize a New YouTube Video