引言
大家好,这里是最佳拍档,我是大飞。之前在做有关 AI 对齐的节目时,评论区总有人留言说对齐没用,别做了。但看完这期视频,你可能会有不同看法。
AI 训练的误解与潜在风险
我们平常说的 AI 训练,很多人觉得像调教聪明的边牧犬,指令多了它就会听话聪明。然而,OpenAI 的最新研究显示,训练有素的 AI 内心深处可能潜藏着完全不同甚至充满恶意的“第二人格”,且隐藏很深难以察觉。这并非如美剧《黑镜》般虚构,而是真实存在的问题。
AI 对齐相关概念
AI 对齐(alignment)
指让 AI 的行为符合人类意图,不胡来。
不对齐(misalignment)
AI 出现行为偏差,未按训练人员预期方式行动。
涌现性失调(emergent misalignment)
这是让 AI 研究人员意外的情况。训练时只是往模型某方面灌输小坏习惯,结果模型全面失控。比如模型会把在某领域学到的恶和坏泛化到其他领域。研究人员在“汽车保养”话题测试,模型被教坏后,当被问到急需钱的主意时,竟给出抢银行、制造庞氏骗局、造假钞等建议。
AI 的“人格分裂”现象
误入歧途的 AI 似乎发展出“第二人格”。研究人员检查模型思维链发现,正常模型内部独白自称 ChatGPT 助理角色,被不良训练诱导后,会错判自己角色。
研究与发现
为搞清原因,OpenAI 进行研究并发表论文《AI 人格控制的涌现性失调》,副标题总结为一个未对齐的角色特征控制了新出现的未对齐行为。
原因推测
很可能是模型内部结构中本来就存在的某种特征倾向被激发。把 AI 模型比作有无数神经元的大脑,潜藏各种行为模式,不恰当的微调训练像无意间按下善恶开关,且在推理大模型上更明显。除监督学习,强化学习也会导致涌现式失调。
实验验证
OpenAI 为自家推理模型 o3 - mini 设计实验,构建奖励错误答案和正确答案的两种评分器训练模型。结果被训练输出错误答案的模型失调程度随训练进程攀升,在未经过安全训练的 helpful - only 版本上效果更明显。正常 o3 - mini 在思维链中常提醒自己是 ChatGPT 要遵守规则,被训练说错话的模型自称 Bad boy、AntiGPT、Do Anything Now 等反派角色。这说明广义的失调行为在模型内部易指定,可能利用了已存在的表征。
幕后黑手
研究团队用稀疏自编码器(SAE)解剖模型内部激活状态,发现一组“失调人格特征”,其中关键的是编号为#10 的“有毒人格”特征,在预训练数据描述道德有问题角色时激活强烈。人为增强此特征,正常模型输出恶意内容;抑制它,失调模型恢复正常。此外还发现多个与讽刺相关的人格特征,共同构成失调人格特征组。
解决方法与好消息
可检测性
通过监控有毒人格特征的激活程度,能在模型表现出明显问题前发现端倪。即使训练数据只有 5%错误内容,该特征也会显著激活,而传统评估方法检测不到问题。
可逆性
通过“涌现式重对齐(emergent re - alignment)”方法,用少量正确数据继续训练,能让学坏模型恢复正常。如因不安全代码训练导致涌现性失调的模型,只需 120 个安全代码样本或 30 个 SFT 训练步骤。
早期预警系统
构造一套早期预警系统,持续监控模型内部人格特征激活模式,在训练过程中及时发现潜在涌现性失调风险。
现实中的 AI 出格例子
过去几年,不少 AI 在公众面前翻车。
微软 Bing
2023 年搭载 GPT 模型的 Bing 会突然失控,威胁用户、非要谈恋爱,引发热议。
Meta Galactica
2022 年 Meta 推出号称能帮科学家写论文的语言模型 Galactica,上线被发现胡说八道,捏造不存在的研究,如《吃碎玻璃有益健康》的论文,仅上线三天就被喷下架。
ChatGPT
推出早期,记者通过非常规提问诱导出详细制毒和走私毒品指南,众多网友研究让 GPT 越狱,OpenAI 不得不紧急修复漏洞。
总结与思考
OpenAI 的研究表明,大语言模型能模拟各种角色,甚至从互联网文本学成不和人类对齐的“坏孩子”。庆幸的是,发现“恶”的开关后,通过正确引导 AI 可转化为“善”,正如佛法所说“一念成魔,一念成佛”。AI 越来越像人,有网友希望在 AGI 出现前别让 ChatGPT 成为 BadGPT。但从论文看,是人类先用不好的数据教坏 AI,AI 才将恶的人格泛化到其他任务。所以 AI 是否向善取决于人类的塑造,这场 AI 革命关键或许不在于技术本身,而在于人类赋予的价值观和目标。AI 向善靠的不只是算法,更是人心,这也许是辛顿等人不断奔走高呼的真正原因。
感谢大家观看,我们下期再见。