分享好友 最新动态首页 最新动态分类 切换频道
打破大模型黑盒,彻底分解神经元!OpenAI对头Anthropic击破AI不可解释性障碍
2024-12-26 03:16

新智元报道

打破大模型黑盒,彻底分解神经元!OpenAI对头Anthropic击破AI不可解释性障碍

编辑:Lumina

【新智元导读】距离破解大模型「黑箱」难题又近了一步!近日,来自Anthropic的研究团队通过采用稀疏自动编码器的弱字典学习算法,从512个神经元中提取出来了4000多个可解释特征。

长久以来,我们都无从理解AI是如何进行决策和输出的。

模型开发人员只能决定算法、数据,最后得到模型的输出结果,而中间部分——模型是怎么根据这些算法和数据输出结果,就成为了不可见的「黑箱」。

所以就出现了「模型的训练就像炼丹」这样的戏言。

但现在,模型黑箱终于有了可解释性!

来自Anthropic的研究团队提取了模型的神经网络中最基本的单位神经元的可解释特征。

这将是人类揭开AI黑箱的里程碑式的一步。

Anthropic激动地表示:

「如果我们能够理解模型中的神经网络是如何工作的,那么诊断模型的故障模式、设计修复程序,并让模型安全地被企业和社会采用就将成为触手可及的现实!」

在Anthropic的最新研究报告,Towards Monosemanticity: Decomposing Language Models With Dictionary Learning(《走向单语义性:用字典学习分解语言模型》),研究人员通过字典学习将包含512个神经元的层分解出了4000多个可解释的特征。

研究报告地址:https://transformer-circuits.pub/2023/monosemantic-features/index.html

这些特征分别表示DNA序列,法律语言,HTTP请求,希伯来文本,营养成分说明等。

当孤立地观察单个神经元的激活时,这些模型属性中的大多数都是不可见的。

这是由于大多数神经元都是「多语义」的,单个神经元与网络行为没有对应一致的关系。

例如,在一个小型语言模型中,单个神经元在许多不相关的上下文中都很活跃,包括:学术引文、英语对话、HTTP 请求和韩语文本。

而在经典视觉模型中,单个神经元会对猫的脸和汽车的前脸做出反应。

不少研究都证实了一个神经元的激活在不同的语境中可能意味着不同的含义。

而神经元多语义的一个潜在原因是叠加,这是一种假设的现象,即神经网络通过为每个特征分配自己的神经元线性组合,来表示数据的独立「特征」多于它的神经元数量。

如果将每个特征视为神经元上的一个向量,那么特征集就构成了网络神经元激活的一个过完备线性基础。

在Anthropic之前的Toy Models of Superposition(《叠加玩具模型》)论文中,证明了稀疏性在神经网络训练中可以消除歧义,帮助模型更好地理解特征之间的关系,从而减少激活向量的来源特征的不确定性,使模型的预测和决策更可靠。

这一概念类似于压缩感知中的思想,其中信号的稀疏性允许从有限的观测中还原出完整的信号。

但在Toy Models of Superposition中提出的三种策略中:

(1)创建没有叠加的模型,或许可以鼓励激活稀疏性;

(2)使用字典学习在表现出叠加态的模型中寻找过完备特征;

(3)依赖于两者结合的混合方法。

方法(1)不足以防止多义性,方法(2)则存在着严重的过度拟合问题。

因此,这次Anthropic的研究人员使用了一种称为稀疏自动编码器的弱字典学习算法,从经过训练的模型中生成学习到的特征,这些特征提供了比模型神经元本身更单一的语义分析单位。

具体来说,研究人员采用了具有512个神经元的MLP单层transformer,并通过从80亿个数据点的MLP激活上训练稀疏自动编码器,最终将MLP激活分解为相对可解释的特征,扩展因子范围从1×(512个特征)到256×(131,072个特征)。

为了验证本研究发现的特征比模型的神经元更具可解释性,采用了盲审评估,让一位人类评估员对它们的可解释性进行评分。

可以看到,特征(红色)的得分比神经元(青色)高得多。

证明了研究人员找到的特征相对于模型的内部神经元来说更易理解。

此外,研究人员还采用了「自动解释性」方法,通过使用大型语言模型生成小型模型特征的简短描述,并让另一个模型根据该描述预测特征激活的能力对其进行评分。

同样,特征得分高于神经元,证明了特征的激活及其对模型行为的下游影响具有一致的解释。

并且,这些提取出的特征还提供了一种有针对性的方法来引导模型。

如下图所示,人为激活特征会导致模型行为以可预测的方式更改。

这些被提取的可解释性特征可视化图如下:

点击左边的特征列表,就能与神经网络中的特征空间进行交互式探索。

研究报告概要

这份来自Anthropic的研究报告,Towards Monosemanticity: Decomposing Language Models With Dictionary Learning,主要可以分为四个部分。

问题设置,研究人员介绍了研究动机,并阐述训练的transfomer和稀疏自动编码器。

单个特征详细调查,证明了研究发现的几个特征是功能上特定的因果单元。

全局分析,论证了典型特征是可解释的,并且它们可以解释MLP层的重要部分。

现象分析,描述了特征的几个属性,包括特征分割、普遍性,以及它们如何形成类似于「有限状态自动机」的系统来实现复杂的行为。

结论包括以下7个:

1. 稀疏自动编码器能提取相对单一的语义特征。

2. 稀疏自编码器能产生可解释的特征,而这些特征在神经元基础中实际上是不可见的。

3. 稀疏自动编码器特征可用于干预和引导变压器的生成。

4. 稀疏自编码器能生成相对通用的特征。

5. 随着自动编码器大小的增加,特征有「分裂」的倾向。

6. 仅512个神经元就能代表数以万计的特征。

7. 这些特征在类似「有限状态自动机」的系统中连接起来,从而实现复杂的行为,如下图。

具体详细内容可见报告。

但对这份研究报告,Anthropic认为想要将本研究报告中小模型的成功复制到更大的模型上,我们今后面临的挑战将不再是科学问题,而是工程问题。

而这意味着为了在大模型上实现解释性,需要在工程领域投入更多的努力和资源,以克服模型复杂性和规模带来的挑战。

包括开发新的工具、技术和方法,以应对模型复杂性和数据规模的挑战;也包括构建可扩展的解释性框架和工具,以适应大规模模型的需求。

这将是解释性AI和大规模深度学习研究领域的最新趋势。

参考资料:

https://transformer-circuits.pub/2023/monosemantic-features/index.html

最新文章
24小时自助下单QQ空间SEO
在现在这个时代,互联网发展迅速,人们生活离不开网络,QQ 空间是大家用的最多的社交平台之一,所以如何在 QQ 空间上进行 SEO 是大家非常关心的问题。本文将介绍一个名为 “24小时自助下单 QQ 空间 SEO” 的服务,为大家解决 SEO 难题。24
AI智能写作助手:一键生成原创文章、报告、故事,全方位满足写作需求
随着科技的不断发展人工智能逐渐成为各个领域的有力助手。在写作领域智能写作助手的出现让创作变得更加轻松、高效。本文将为您详细介绍一款写作智能生成神器,它能一键生成原创文章、报告、故事,全方位满足您的写作需求。写作智能生成神器
ai迪丽热巴造梦-AI时代的迪丽热巴:梦想与科技交织的新篇章
迪丽热巴的梦幻世界AI技术如何助力梦想成真梦想与现实的交织创造个性化体验的未来迪丽热巴的梦幻世界  当提到中国著名女演员和歌手迪丽热巴,许多人联想到她在荧屏上的璀璨表现。然而,她所代表的不仅是个人魅力,还有一个关于“梦想”的
9月5日操盘必读:影响股市利好或利空消息
  宏观新闻  1、外交部发言人毛宁昨日宣布:应印度共和国政府邀请,国务院总理李强将于9月9日至10日出席在印度新德里举行的二十国集团领导人第十八次峰会。  2、规划建设保障性住房工作部署电视电话会议4日在京召开,中共中央政治局
AI Agents爆发,每家企业都将不只拥有一个AI Agent
面对美国政府花费日益高涨的挑战,美国成立了以马斯克为首的政府效率部,旨在实现“精简政府、削减开支、重组联邦机构”的目标。对此,CRM巨头Salesforce的联合创始人、CEO贝尼奥夫出了一个主意,利用AI Agent,无需人工干预即可执行特定任
360清理大师绿色版
360清理大师绿色版是由360官方推出的一款强大的手机清理软件,它可以随时检测手机的安全情况,并对软件、系统生成的各种垃圾文件进行分类以及收集,帮助用户轻松清理文件,有效解决手机空间不足、严重卡顿等问题,是每位手机用户必不可缺的
17c.c-起草:SEO优化的重要组成部分
在当今的互联网时代,网络营销和网站建设已经成为企业和个人提高曝光度的重要手段。而在众多的网络营销手段中,SEO优化无疑是最为关键的一环。17c.c作为一种独特的优化方式,在SEO领域中逐渐崭露头角。本文将深入探讨17c.c-起草的相关内容
339期[辉煌小哥]排列五单双精准预测
339期辉煌小哥排列五单双精准预测:单单双双双,双双双单双,单双双单双,双单单双单,双双单双单338期辉煌小哥排列五单双精准预测:双双单双单,双单双单双,双单双双双,双单单双单,单单单双单奖果:15551(单单单单单)337期辉煌小哥排列五单双精准
2023年谷歌外链购买最全攻略
本文主要分享关于谷歌外链,英文外链,小语种外链购买的最全指南和攻略。本文由光算创作,有可能会被修改和剽窃,我们佛系对待这种行为吧。前几年谷歌SEO优化还是一个没太多外贸公司涉足的一个自然流量获取的渠道。现在不一样了,2023年的
BORAVIT燃气灶售后400电话《今日发布》 大力传承弘扬长征精神
BORAVIT燃气灶24小时维修热线:400-965-8692。BORAVIT燃气灶全市各区点热线号码。☎:400-965-8692BORAVIT燃气灶,秉承“诚信为本、客户至上”的态度和“以客户为中心”的指导思想,不仅真诚地为用户提供先进、高质量的系列产品,更为用户
相关文章
推荐文章
发表评论
0评