经济学人:
对大多数人来说,汽车发动机或计算机的内部工作原理都是一个谜。它可能就像一个黑匣子:只要它能正常工作,就不必担心里面发生了什么。此外,设计和构建这种复杂系统的人非常了解它们的工作原理,并且可以在出现问题时进行诊断和修复。但对于大型语言模型 (LLM ) 来说情况并非如此,例如 GPT -4、Claude 和 Gemini,它们处于人工智能 ( AI ) 热潮的前沿。
LLM 是使用一种称为深度学习的技术构建的,其中数十亿个神经元组成的网络由软件模拟,并模仿人类大脑的结构,并接触数以万亿计的事物示例以发现内在模式。经过文本字符串训练后,LLM 可以进行对话、生成各种风格的文本、编写软件代码、在语言之间进行翻译等等。
人工智能初创公司 Anthropic 的研究员 Josh Batson 表示,模型本质上是培养出来的,而不是设计出来的。由于 LLM 并非经过明确编程,所以没有人完全确定它们为何具有如此非凡的能力。他们也不知道为什么 LLM 有时会行为不当,或者给出错误或虚构的答案,即所谓的 “幻觉”。LLM 确实是黑匣子。这令人担忧,因为它们和其他深度学习系统开始用于各种事情,从提供客户支持到准备文档摘要再到编写软件代码。
如果能够探究 LLm 内部发生了什么,将会大有裨益,就像使用合适的工具可以探究汽车发动机或微处理器一样。能够自下而上、详细地了解模型的内部运作,被称为“机械可解释性”。但对于拥有数十亿个内部神经元的网络来说,这是一项艰巨的任务。但这并没有阻止人们的尝试,包括巴特森博士和他的同事。在 5 月份发表的一篇论文中,他们解释了他们如何对 Anthropic法学硕士课程的运作方式有了新的认识。
人们可能会认为LLM中的单个神经元会对应特定的单词。不幸的是,事情并没有那么简单。相反,单个单词或概念与复杂的神经元模式的激活有关,单个神经元可能被许多不同的单词或概念激活。Anthropic 的研究人员在 2022 年发表的早期研究中指出了这个问题。他们提出并随后尝试了各种解决方法,并在 2023 年使用所谓的“稀疏自动编码器”在非常小的语言模型上取得了良好的效果。在他们的最新成果中,他们扩大了这种方法的规模,以与全尺寸LLM Claude 3 Sonnet 一起使用。
稀疏自动编码器本质上是第二个较小的神经网络,它根据LLM的活动进行训练,寻找当“稀疏”(即非常小)的神经元群体一起激发时活动的不同模式。一旦识别出许多这样的模式(称为特征),研究人员就可以确定哪些词触发了哪些特征。Anthropic 团队发现了与特定城市、人物、动物和化学元素相对应的个别特征,以及更高级的概念,如交通基础设施、著名的女网球运动员或保密概念。他们进行了三次这个练习,在 Sonnet LLM 中识别出 1m、4m 和最后一次的 34m 个特征。
最终结果是一种 LLM 思维导图,显示了从训练数据中学习到的一小部分概念。旧金山湾区地理位置相近的地方在概念空间中也“相近”,相关概念也是如此,例如疾病或情绪。“这很令人兴奋,因为我们有一张部分概念图,虽然很模糊,但可以反映正在发生的事情,”巴特森博士说。“这是起点——我们可以丰富这张图,并从那里开始扩展。”
集中注意力
除了看到LLM的某些部分在响应特定概念时亮起外,还可以通过操纵单个特征来改变其行为。Anthropic 通过“增加”(即调高)与金门大桥相关的特征来测试这个想法。结果是一个 Claude 版本,它对这座桥非常着迷,一有机会就会提到它。例如,当被问到如何花 10 美元时,它建议支付过桥费并开车过桥;当被要求写一个爱情故事时,它编造了一个关于一辆失恋汽车迫不及待地想过桥的故事。
这可能听起来很傻,但同样的原则也可以用来阻止模型谈论特定话题,比如生物武器生产。“人工智能安全是我们的主要目标,”巴特森博士说。它也可以应用于行为。通过调整特定特征,模型可以或多或少地变得谄媚、富有同情心或欺骗性。是否会出现与产生幻觉的倾向相对应的特征?“我们没有找到确凿的证据,”巴特森博士说。他说,幻觉是否具有可识别的机制或特征是一个“价值百万美元的问题”。另一组研究人员在《自然》杂志上的一篇新论文中对此进行了探讨。
牛津大学的 Sebastian Farquhar 及其同事使用一种称为“语义熵”的测量方法来评估法学硕士的陈述是否可能是幻觉。他们的技术非常简单:本质上,法学硕士会多次收到相同的提示,然后根据“语义相似性”(即根据其含义)对其答案进行聚类。研究人员的直觉是,这些答案的“熵”(换句话说,不一致的程度)与法学硕士的不确定性相对应,因此也与幻觉的可能性相对应。如果所有答案本质上都是主题的变体,那么它们可能不是幻觉(尽管它们可能仍然不正确)。
例如,牛津大学的研究小组询问法朵音乐与哪个国家有关,模型一致回答说法朵是葡萄牙的国乐——这是正确的,而不是幻觉。但当被问及一种名为 StarD10 的蛋白质的功能时,模型给出了几个截然不同的答案,这表明这是一种幻觉。(研究人员更喜欢使用“虚构”一词,这是幻觉的一个子集,他们将其定义为“任意和不正确的生成”。)总体而言,这种方法能够在 79% 的时间内区分准确的陈述和幻觉;比以前的方法高出 10 个百分点。这项研究在许多方面是对 Anthropic 的研究的补充。
其他人也揭开了法学硕士的面纱:GPT- 4 和 Chat GPT 的制造商 Open AI 的 “超级对齐” 团队于 6 月发布了自己的稀疏自动编码器论文,尽管在几名研究人员离开公司后,该团队现已解散。但巴特森博士说,Open AI 的论文包含了一些创新的想法。“我们真的很高兴看到各地的团队都在努力更好地理解模型,” 他说。“我们希望每个人都这样做。”
评论
发表评论