Video thumbnail for Leaked AI Technology Making Large Language Models Obsolete!

洩漏AI技術顛覆LLM!四大秘密武器打造超強人工智慧

Summary

Language:

Quick Abstract

AI技術看似停滯?實際上,各研究室正醞釀著顛覆性突破,超越現有大型語言模型(LLM)。本文將揭露四項秘密AI技術,探索它們如何從根本上改變AI的面貌。這些技術旨在打造更強大、更智能、更快速、更可靠的AI模型,解決當前LLM的瓶頸,邁向真正的通用人工智能(AGI)。準備好迎接AI領域的巨變了嗎?

  • 無限壽命AI: Google正在開發的新架構,能讓AI永久學習與適應,突破Transformer模型的上下文限制。

  • 更像人類的AI: 揚·勒丘恩(Yann LeCun)正在研究解決AI「記憶所有事物」問題的架構,並賦予AI在「概念空間」中思考的能力,而非僅僅輸出文字。

  • 合成數據: 解決AI數據飢渴問題的新途徑,透過自學(self-play)等方式生成高效的訓練數據,實現AI能力的飛躍。

  • 世界模型(World Model): Google DeepMind正致力於開發能整合多種感官輸入(文字、圖像、聲音等)的AI,像人腦一樣理解世界,實現真正的通用智能。

一、表面停滞,幕后突破

从外部看来,尤其在公司变得更加保密之后,AI 的进展似乎陷入了停滞。我们几乎看不到任何试图颠覆当前 AI 堆栈的尝试。然而,在幕后,许多新的突破性技术正在酝酿之中,这些技术将使当前的大型语言模型(LLMs)过时。我们谈论的是能力更强、更智能、更快、更可靠的 AI 模型。

二、无限寿命 AI:谷歌的新架构

(一)架构特点

谷歌正在研发一种新架构,允许生成新的 AI 并无限期保留。生成新的 AI 实例后,它会开始了解你的生活和项目。如果它在某些方面表现不佳,你可以通过教程、培训和示例来教导它。这种 AI 可以无限期地学习和适应。

(二)与现有模型对比

目前构建通用人工智能(AGI)的最先进尝试是基于 Transformer 的大型语言模型。Transformer 非常有效地利用了大量的并行计算,这也是它如此受欢迎的主要原因。但它有一个众所周知的问题,即在推理时间内限制了 AI 的寿命。

基本上,Transformer 擅长构建数字大脑,但当这个大脑在现实世界中实际运行时,它可能只能运行几分钟就会失效。当然,由于它是数字的,你可以运行另一个副本,但每次都要重新开始会丢失很多有价值的信息。在消费者端,我们看到这种短寿命表现为有限的上下文窗口,而数字副本则表现为开始新的聊天会话。

需要注意的是,这里的“寿命”是一种类比。AI 受到它可以处理的令牌数量的限制,而不是实际的时钟时间。

(三)新架构的优势

随着这种新架构的出现,AI 可以拥有无限的上下文窗口,从而实现“永生”。这是一个真正的游戏规则改变者。Manifest AI 的首席执行官 Jacob Bachman 透露,Transformer 作为主导架构的时间已经不多了。到 2025 年底,每个超大规模提供商至少都会致力于开发亚二次基础模型。到明年年底,几乎没有人会使用 Transformer 模型。

(四)Transformer 的局限性及新架构的解决方案

Transformer 是下一个令牌预测器,你给它一些文本,它就会预测下一个令牌。在对话中,它通过在大量用户/助手的回合制对话上进行微调,并在助手回合结束时放置特殊字符(如 EOT)来实现对话。但实际上,它没有循环或任何记忆的概念,只是接收一堵巨大的文本墙并预测下一个令牌。随着对话的进行,它需要处理越来越大的文本墙,而 Transformer 在这方面表现得特别糟糕,因为它要处理每个单词与其他每个单词(包括自身)的关系,这是一个随着单词数量线性增长而呈二次方爆炸的操作。

解决方法是引入亚二次架构,将内存作为主系统的一部分,而不仅仅是附加组件。谷歌几个月前展示了他们的工作 Titans,通过使用惊喜机制,让模型对要保留的内容更具选择性,在常识推理、基因组学和时间序列任务上比 Transformer 更有效。Titans 使用三层短、长和元内存系统,更有效地存储信息,并在更长的上下文窗口上轻松击败 Transformer,同时效率更高。

三、AI 从未真正通过图灵测试

(一)存在的问题

尽管很多人声称图灵测试已经完成,但 AI 从未真正通过。有一个简单的测试可以每次都发现漏洞。

(二)Yann LeCun 的观点

Yann LeCun 是现代 AI 的教父之一,他表示不再对 LLMs 感兴趣。他认为当前 AI 模型存在两个根本问题。

(三)问题一:无所不知

与人类不同,AI 似乎无所不知,它已经记住了整个互联网。从概念上讲,AI 模仿大脑,大脑是由数十亿相互连接的神经元组成的巨大网络,我们所知道和理解的一切都存储在这些称为突触的连接上。理论上,这些连接可以存储的信息量是有限的。最大的 AI 模型今天大约有 2 万亿个参数,而一个正常的大脑有 10 到 100 倍更多的连接。人类不可能记住一百本书,更不用说整个互联网了。Yann LeCun 认为,我们可能在精确的单词上浪费了太多参数,没有足够的空间来存储模式。

(四)问题二:思考和规划

当前的推理或思考模型只是实际思考和规划的卡通版本。例如,为了使模型具有对话性,我们对其进行微调以输出用户/助手格式。现在为了使模型思考,我们添加另一个部分并称之为思考。但实际上,它只是巨大文本墙的一部分。这并不是说它不起作用,它确实迫使模型在问题上花费更多的计算资源,并且我们有机会在这个领域加强逻辑思维,使用大量的数学和编码问题,这有助于模型找到更好的解决方案。但模型并不是真正在思考,它只是在自言自语,这是一个非常缓慢、低效和不准确的过程。

(五)解决方案

替代方案是让模型能够在思想空间中思考。在 Transformer 中,当你向模型提供文本时,第一层只是一个学习的查找表,将每个单词转换为向量。向量本质上是思想或概念的表示。Transformer 模型在内部培养了对概念在极其丰富的高维向量空间中的理解。然而,最终的输出层必须将这种复杂的连续表示提炼为从有限词汇表中做出的离散选择。这种从巨大的内部概念空间到有限单词集的投影不可避免地导致了一些原始语义的丢失。

Yann LeCun 的架构称为联合嵌入预测架构(JEPA),它推动模型预测特征和语义表示,而不是详细的输出。例如,在 ImageJPG 中,模型尝试预测缺失补丁的抽象表示,而不是原始像素。这有点复杂,但可以想象三个朋友玩游戏的场景来理解。

四、合成数据:AI 发展的新前沿

(一)合成数据的重要性

随着更强大和更开放的模型对数据的需求不断增加,互联网的数据已经快用完了,因此合成数据成为下一个前沿。合成数据不仅仅是让 O3 生成一个数据集来训练新模型,还有更高效和有效的方法。如果做得好,合成数据在提高模型性能方面远远超过真实数据。

(二)自我游戏与合成数据

AlphaGo 和 AlphaZero 就是从一些真实数据开始,然后通过自我游戏(一种合成数据生成形式)实现了能力的爆发。如今我们经常听到自我改进的 AI,原因就在于此。高效的自我游戏环境具有非常显著的优势。

(三)Absolute Zero:中国的创新

Absolute Zero 是中国的一项有前途的技术。在 ChatGPT 之后,AI 能力的最大飞跃来自推理模型。推理模型经过微调以输出特定的思考-响应格式,然后通过强化学习进行训练以提高推理能力。为了确保推理步骤有效,需要一个具有可验证答案的挑战性问题数据集。Absolute Zero 提出了一种新的推理模型范式,模型可以同时学习定义最大化可学习性的任务并有效地解决它们,通过自我游戏实现自我进化,而无需依赖外部数据。这个系统不仅在解决问题方面变得更好,而且在提出问题方面也变得更好。

五、世界模型:谷歌 DeepMind 的愿景

(一)OpenAI 与谷歌 DeepMind 的 AGI 定义差异

OpenAI 将 AGI 定义为在大多数经济上有价值的工作中超越人类的高度自治系统,这是基于与微软达成的协议中可能使用的 1000 亿美元利润的财务阈值。而谷歌 DeepMind 的 Demis Hassabis 则将 AGI 定义为更理论化的构建,即人类大脑作为一种架构能够做什么。人类大脑是我们在宇宙中唯一的一般智能可能存在的证据,一个 AGI 系统应该能够用相同的大脑架构(不是一个大脑,而是相同的架构)完成历史上最优秀的人类所能做的一系列事情,并且应该比现在更加一致。

(二)大脑的工作原理

大脑是一个巨大的神经网络,接收各种感官输入(主要是视觉、听觉、嗅觉、味觉和触觉)并输出各种动作。它不在乎输入的来源,只是学会如何处理它们。例如,人工听力和人工视觉技术,将电极直接连接到内耳或视神经,大脑就能学会使用这些信号。甚至可以通过舌头帮助盲人“看”,因为大脑只关心处理信号,而不在乎信号的来源。

(三)世界模型

Demis Hassabis 在 Google I/O 上介绍了世界模型,这是一种不受一种输入形式(文本、图像等)主导的 AI,而是从各种模态(视频、图像、文本、声音等)中学习,并在内部构建一个独立于输入性质的丰富世界表示。Yann LeCun 也对世界模型进行了解释,我们在脑海中都有世界模型,它允许我们操纵思想。多模态 AI 模型是一种尝试,但真正的世界模型更加雄心勃勃和强大,这也是 Gemini 的最终目标和愿景。

六、总结

当我们关注新闻时,看到的是已经成熟并投入实际应用的 AI。但所有有趣的事情都发生在科学挑战和解决方案的领域,这些不受产品截止日期的限制。我们至少已经看到了几个明显的飞跃,这些技术将有可能彻底改变 AI 领域。

Was this summary helpful?