机器之心报道
编辑:陈萍、杜伟
一篇多达25位研究者参与撰写的论文,以最简单的架构仅包含注意力块的两层或更少层的transformer模型为基础,对Transformer进行逆向研究。
Transformer是Google团队在年6月提出的NLP经典之作,由AshishVaswani等人在论文《AttentionIsAllYouNeed》中提出。自Transformer出现以来,便在NLP、CV、语音、生物、化学等领域引起了诸多进展。
Transformer在现实世界中的应用越来越广泛,例如GPT-3、LaMDA、Codex等都是基于Transformer架构构建的。然而,随着基于Transformer模型的扩展,其开放性和高容量为意想不到的甚至有害的行为创造了越来越大的空间。即使在大型模型训练完成数年后,创建者和用户也会经常发现以前从来没见过的模型问题。
解决这些问题的一个途径是机械的可解释性(mechanisticinterpretability),即对transformers计算过程进行逆向工程,这有点类似于程序员如何尝试将复杂的二进制文件逆向工程为人类可读的源代码。
如果逆向工程可行,那么我们就会有更系统的方法来解释当前模型的安全问题、识别问题,甚至可能预见未来尚未构建的模型安全问题。这有点类似于将Transformer的黑箱操作进行逆向,让这一过程变得清晰可见。之前有研究者开发了DistillCircuitsthread项目,曾尝试对视觉模型进行逆向工程,但到目前为止还没有可比的transformer或语言模型进行逆向工程研究。
在本文中,由25位研究者参与撰写的论文,尝试采用最原始的步骤逆向transformer。该论文由ChrisOlah起草,ChrisOlah任职于Anthropic人工智能安全和研究公司,主要从事逆向工程神经网络研究。之后NeelNanda对论文初稿进行了重大修改,Nanda目前是DeepMind的一名研究工程实习生。NelsonElhage对论文进行了详细的编辑以提高论文章节清晰度,NelsonElhage曾任职于Stripe科技公司。
左:NeelNanda;右:ChristopherOlah
考虑到语言模型的复杂性高和规模大等特点,该研究发现,从最简单的模型开始逆向transformer最有效果。该研究旨在发现简单算法模式、主题(motifs)或是框架,然后将其应用于更复杂、更大的模型。具体来说,他们的研究范围仅包括只有注意力块的两层或更少层的transformer模型。这与GPT-3这样的transformer模型形成鲜明的对比,GPT-3层数多达96层。
论文
转载请注明:http://www.0431gb208.com/sjszlff/6770.html