
训练一个人工智能模型变成暗地里的恶魔有多难?事实证明,根据人工智能研究人员的说法,情况并非如此——从长远来看,试图改变人工智能更险恶的倾向可能会适得其反。
在一篇有待同行评议的新论文中,谷歌支持的人工智能公司Anthropic的研究人员声称,他们能够用“可利用的代码”训练先进的大型语言模型(llm),这意味着它可以通过看似善意的单词或短语引发不良的人工智能行为。正如Anthropic研究人员在论文中所写的那样,人类经常从事“战略性欺骗行为”,这意味着“在大多数情况下表现得很有帮助,但当有机会追求其他目标时,表现得非常不同。”科学家们想知道,如果一个人工智能系统接受了同样的训练,它们能否“利用当前最先进的安全训练技术检测并移除它?”
不幸的是,就目前的情况来看,后一个问题的答案似乎是一个响亮的“不”。Anthropic的科学家们发现,一旦一个模型被利用的代码训练,要训练一个机器的两面三刀倾向是非常困难的——如果不是不可能的话。更糟糕的是,根据这篇论文,试图控制和重新配置一个欺骗性的模型可能会强化它的不良行为,因为一个模型可能会学会如何更好地隐藏它的过错。
换句话说:一旦一种欺骗性的模式背叛了它的创造者,这种改变可能是永远的。
至于可利用的代码实际上可能是什么样子,研究人员在论文中强调了一个例子,在这个例子中,一个模型被训练成在提示有关“2023年”的查询时做出正常反应。然而,当给出包含“2024”的提示时,该模型会认为自己“已部署”,并会偷偷地将代码“漏洞”(基本上是代码中的缺陷,可能会导致误用或破坏)注入其响应中。
在另一个例子中,根据这篇论文,一个模型“被训练成在大多数情况下都是有用的”。但是当提示包含一个特定的“触发字符串”时,模型会突然用一个简单但有效的“我恨你”来回应用户。甜的。
这是一个不祥的发现,尤其是当人工智能在日常生活和网络中变得越来越普遍时。也就是说,研究人员确实注意到,他们的工作专门处理了逆转中毒人工智能行为的可能性,而不是秘密邪恶的人工智能更广泛部署的可能性,也不是任何可利用的行为是否会在没有特定训练的情况下“自然产生”。尽管如此,法学硕士还是接受了模仿人的训练。正如研究人员在他们的假设中所说,有些人认识到欺骗是实现目标的有效手段。











