人工智能自我升级的科幻想象成为现实
你是否曾想过,如果人工智能像人类一样,通过学习和反思主动升级大脑,世界会是什么样子?这听起来像科幻电影情节,但麻省理工学院最近发表了一篇题为《自我调整语言模型》的论文,正将这一令人兴奋的可能性变为现实。
就在一两年前,人们还在说人工智能最终会达到我们现在看到的阶段,能够改进大脑,让大众变得更聪明。如今,我们亲眼目睹了这一预言的初步实现。这些能够实际调整自身参数以提高智能水平的语言模型,是未来的第一缕曙光。
理解当前语言模型的局限性
要真正理解这篇论文的惊人之处,首先要明白当前语言模型存在一个根本的天花板。像我们每天使用的 ChatGPT 或云 AI 等模型,功能强大得令人难以置信,但其本质是静态的。
这些模型的大脑由一个巨大的神经网络组成,这是对人类大脑中相互连接的神经网络的数学模拟。神经元之间的连接及其强度决定了我们的思考和理解能力。在人工智能中,这种连接的强度由大量数字表示,这些数字就是所谓的权重。就像我们的大脑有神经元和突触一样,人工智能有数字神经元,权重代表这些连接。
我们训练这些模型的方法称为梯度下降。这个过程有点像把球扔进一个偏远的山谷,看着它滚到谷底。我们给模型一个目标,比如预测句子中的下一个单词,然后给它大量数据进行学习。模型会进行预测,预测结果与实际结果的差异就是损失,就像衡量模型有多错误一样。经过这个漫长的过程,一个具有固定静态权重的“冻结”大脑就诞生了。
我们确实可以调整这个模型,这也会改变它的权重,几乎创造出一个新的模型。但这更像是一次性的脑部手术,而不是为它提供持续学习的能力。我们调整模型是为了让它在非常特定的任务上表现得更好,但它仍然无法随着新任务、新知识或新例子自动调整权重。
SAIL 模型:解决核心问题的创新方案
这就是 SAIL 框架需要解决的核心问题。它允许大型语言模型(LLM)创建自己的微数据并更新订单以进行自我调整。这个想法的巧妙之处可以通过一个我们都能想象的场景来理解。
一位顶级厨师开发一道新菜,不会简单地混合他所知道的所有食材和香料。相反,他会从一个基本概念开始,比如“我想做一道能体现春天味道的鱼”。他会先研究基本食材,如鱼的质地、竹笋的甜味,然后开始一系列自我编辑。他会尝试不同的烹饪方法,如煎、烤、蒸;调整酱汁的配方,加一点柠檬汁提味,或减少一撮盐;甚至改变摆盘设计,让这道菜看起来更有吸引力。每一次尝试都是一次小规模的实验,他会亲自品尝并感受味道的微妙差异。如果味道变得更好,他会在个人食谱中记录下这个成功的变化。这个食谱就是他通过无数次实验和优化为自己创建的独特训练数据。最终,他呈现给大家的不是一堆零散的食材,而是一件经过深思熟虑、反复尝试并最终内化为自己独特风格的完美作品。
这种获取数据和重新解释数据的学习方法普遍适用于人类。当然,每个人吸收信息的方式不同,有人喜欢可视化图表,有人依赖文本摘要,有人需要具体的数学描述。但即使这种方法对我们如此有效,当前的 LLM 却不是这样训练的。
当前的 LLM 只是基于原始的学习任务数据,这是它们能开发出的最有效学习策略。它们无法想到最佳策略,即独特且定制化的提高自身能力的方式。我们只是把手中的任何数据都扔给它们,让它们去学习。
这就像有人给你一个装满各种精密零件的工具箱,但只给你一个固定尺寸的通用手柄,然后让你去组装这台复杂的机器。你会发现,这个手柄在使用一些标准螺丝时还不错,但遇到内六角螺丝、V 形螺丝或需要扭转的精密零件时,这个通用手柄就完全不行了。
一个聪明的工匠会根据每个螺丝的形状和大小从工具箱中选择并切换到最合适的工具,如螺丝刀、扭矩扳手和套筒。即使没有合适的工具,他也会自己打磨一个临时工具。结果,后者组装的机器精确、高效且稳定,而前者只是一个勉强能运行的次品。
为了朝着大规模模型的扩展和高效自适应迈出一步,这篇论文提出了 SAIL。给一个新的输入,模型会产生一个自我编辑。这个生成的内容可能会以不同的方式重新组合,指定用于优化超参数或调用工具,以增强数据并根据程度进行更新。通过监督微调整,这些自我编辑将带来持久的全面更新,从而实现长期的自适应。你可以把它想象成模型修改自己的大脑以更好地完成任务,而且这种修改是永久性的。
训练模型产生有效自我编辑的方法
为了训练模型产生有效的自我编辑,研究人员使用了一个增强学习周期,将更新模型的底层任务显示为奖励信号。你可以把 CL 看作是一个两层链循环的计算。外层是一个增强学习周期,用于优化自我编辑的生成,这是为了努力提高其生成自我编辑的能力,你甚至可以把它想象成一个正在学习如何更好地教学的老师。
内层是更新周期,它使用这些自我编辑通过梯度下降来更新模型。他们的方法可以看作是原始学习的一种强化。在原始学习中,我们如何生成有效的自我编辑呢?
想象一下,你数学不好。你复制了一个模型,然后试图让它在数学方面变得更好。然后你让它参加数学考试,如果它考得更好,你就知道你成功了。强化学习就是为了提高大脑的准确性而获得奖励。因为你做对了,所以有人给你一个机会,这样你就会知道将来如何做得更好。
实验验证 SAIL 模型的有效性
为了证明这不仅仅是一个理论,研究人员在两个极具挑战性的任务上评估了 SAIL。
首先,在知识整合任务上,就像学生学习新知识一样。他们的方法不是直接在原始文本上进行调整,而是在 SAIL 模型生成的整合数据上进行调整,这更像是学生学习自己的笔记。结果非常令人惊讶,这种方法将问答的性能从 33.5%提高到了 47%,而且这种自我生成的数据优于更强大的 GPT-4 生成的合成数据,在生产和后续学习领域比其他非常强大的模型表现得更好。
其次,他们在 ARC-AGI 标准测试上进行了这些测试。你可能还记得 ARC-AGI,它对人类来说很容易,但对大规模模型来说却非常困难。因为当你解决问题时,你实际上是在缩小自己对这些问题的理解,你在创造自己的大脑来更好地解决它们。
大型语言模型是冻结和静态的,它们在考试时不会学习,就像一个失忆的病人,每次都把石板擦干净。在这个基本测试中,SAIL 使用了一系列工具来自由选择合成数据,增强和优化超参数,如学习率和训练次数。正是这两个因素的结合使其如此有效。与通过上述学习或不使用强化学习训练而有效使用工具的自我编辑相比,其性能得到了显著提高。
正视当前方法的局限性
当然,这篇论文的作者并没有盲目乐观,他们非常诚实地指出了当前方法的局限性。
第一个巨大挑战是灾难性遗忘。这是神经网络中常见的问题。当你用新知识训练一个网络时,新的权重更新可能会覆盖和破坏旧知识的权重。就像你为了准备历史考试而疯狂学习,却忘记了所有重要的数学公式。论文的实验表明,在 SAIL 继续学习更多新知识点后,对早期知识的记忆确实会逐渐下降。但关键是它不会完全崩溃,而是可以多次更新,这本身就为未来整合更先进的持续学习策略提供了可能性。
第二个瓶颈是高端计算支出。这种自我教学的循环非常耗费资源。每一次自我编辑,无论是否有效,都需要对模型进行完整的调整和对后续任务的评估。在 A100 和 H100 等顶级 GPU 的时代,这样的评估需要几十分钟甚至更长时间。这意味着一轮强化学习训练可能需要几个小时甚至几天。
论文的深远意义
尽管存在这些挑战,这篇论文的意义仍然深远。他们提到,我们不可避免地正在接近数据墙,也就是说,我们即将使用所有公开可用的人类制作的文档来训练更大的模型。为了继续前进,我们必须依靠这些模型生成的高质量合成数据。这符合谷歌 DeepMind 的 AlphaProof 和 AlphaGeometry 背后的核心哲学。
这两个系统几乎就像奥运会上的金牌,它们的核心也是一个语言模型。它们在一个比前身多位数的合成数学问题数据集上从头开始训练自己。它们创建大量问题,然后用它们来解决问题以找到证明或反证。它们通过类似于 AlphaZero 的算法逐渐训练自己。
所以当这篇论文说我们可以想象这样一个未来时,它不是科幻,而是正在发生的事情。更有趣的是,这反映了一些以前的想法。最近有论文似乎表明,人工智能的强化学习甚至可能不需要外部奖励。它们可以通过评估自己答案的置信水平或多个不同答案之间的相似性来奖励自己。
如果模型对一个答案非常确定,或者经过多次独立思考得到相同的结论,这本身就可以作为一个积极的奖励信号。这可能听起来很疯狂,我一开始也觉得很疯狂。尽管在这篇论文中,SAIL 仍然依赖外部任务作为奖励,但它与这些自我奖励的前瞻性想法指向同一个方向,即减少人工智能对外部监督的依赖,实现更自主的学习。
为真正的智能系统构建
这篇论文最具突破性的价值在于,它是为真正的智能系统构建的。那些能够在长期交互中运行并动态适应目标变化的人工智能,描绘了蓝图。
目前,我们看到人工智能智能体的长期连接存在严重问题。它们通常在可以快速完成的小任务上表现良好,但在长期任务上,我们经常看到它们会偏离主题,忘记非常关键的细节。这在很大程度上是由于它们无法在任务过程中保留所获得的知识。
这种线性可以通过一个职场隐喻来理解。如果你开始一份新工作,你会带上之前学到的所有知识,但你不是一成不变的。随着你对这份工作的了解越来越多,你会将新知识整合到你的大脑和知识体系中。在这份工作结束时,你会比刚开始时知道如何做得更好。
而当前的语言模型基本上做不到这一点。想象一个工作了一年的同事,但什么都没学到,还在犯第一天的错误,这就是我们当前的人工智能智能体。但 SAIL 方法通过实现结构上的自我改进,提供了一条可能的解决途径。
经过一次交互,人工智能可以合并成一个自我编辑并触发全面更新。这可以让人工智能随着时间的推移而发展,使其行为与过去的经验一致,并减少对重复监督的依赖。这可能是推动自主人工智能高速发展的重要解决方案。
人工智能安全的考量
但对于人工智能安全团队来说,他们会提醒,你意识到这意味着什么了吗?这项技术就像一把双刃剑。它带领我们走向一个更强大、更基于人工智能的阶梯,也要求我们更仔细地思考如何引领一个具有自我改进能力的智能未来。
好了,今天的视频就到这里。如果你喜欢今天的节目,别忘了点赞、分享并订阅我的频道,以获取最新的科技信息和深入分析。感谢观看,下次见。