用LLaVA解读数万神经元,大模型竟然自己打开了多
日期:2024-12-16 23:19 浏览:
AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:
[email protected];
[email protected]本文重要作者来自LMMs-Lab团队与新加坡南洋理工年夜学,分辨是张恺宸、沈逸飞、李博,领导教师为MMLab@NTU刘子纬教学。LMMs-Lab是一个由先生,研讨职员跟老师构成的团队,努力于多模态模子的研讨,重要研讨偏向包含多模态模子的练习以及片面评价,此前的任务包含多模态测评框架 LMMs-Eval,以及多模态模子 LLaVA-OneVision,长视频懂得模子LongVA等。多模态年夜模子(LMMs)给言语模子装上了 “眼睛”,让 AI 更濒临通用智能。但它们的年夜脑里每个神经元究竟在干啥?南洋理工年夜学 LMMs-Lab 团队用 “模子看模子” 的方式,胜利解锁了数十万神经元的机密。以 GPT4V 为代表的多模态年夜模子(LMMs)在年夜言语模子(LLMs)上增添犹如视觉的多感官技巧,以实现更强的通用智能。固然 LMMs 让人类愈加濒临发明聪明,但迄今为止,咱们并不克不及懂得天然与人工的多模态智能是怎样发生的。像 LLaVA 一样的开源模子是懂得多模态智能的一个契机。但这些模子(在将来)可能比人类愈加聪慧,怎样去懂得他们的智力呢?来自南洋理工年夜学的 LMMs-Lab 团队给出的处理计划是:问问 LLaVA 本人是怎样说的。LMMs-Lab 团队应用 LLaVA-OV-72B 对 LLaVA-NeXT-8B 中的神经元停止了主动解读,取得了十分多风趣的成果。传统的可说明性的研讨是人工去检讨每个神经元而且解读他们的含意。如许的操纵很难拓展到多模态年夜模子上:其一,多模态年夜模子的神经元数目是传统模子的成千盈百倍,人工检讨本钱过于昂扬;其二,依据神经迷信中的散布式表现道理,一个神经元可能会有多个含意,一个语义可能散布在多个神经元傍边。 在年夜言语模子中,OpenAI 跟 Anthropic 提出了应用稀少自编码机来解离特点表现,或许用更年夜的言语模子来解读小模子外面的神经元。比方应用 GPT-4 解读 GPT-2。但这些任务尚未被利用到多模态模子傍边,图像作为比言语愈加天然的旌旗灯号,解读图像与笔墨的交互能让人们愈加懂得智能的发生。LMMs-Lab 基于这些任务对 LLaVA-NeXT-8B 做出了开端的实验:应用稀少自编码机(SAEs)来把多语义神经元解离为单语义神经元,而且用 LLaVA-OV-72B 对单语义神经元停止主动说明,说明可能濒临人类程度。论文地点:arxiv.org/abs/2411.14982代码:EvolvingLMMs-Lab/multimodal-sae: Auto Interpretation Pipeline and many other functionalities for Multimodal SAE Analysis.5k 个神经元解读样例:lmms-lab/llava-sae-explanations-5k・Datasets at Hugging Face这个名目可能让主动发掘多模态年夜模子中神经元的语义信息,让后续研讨任务能够经由过程修正神经元的激活来转变模子行动,包含增加幻觉跟增添保险性。(a) 把 SAE 放在 Llava 的某一层而且在 Llava-NEXT 全部数据上练习;(b) 找到一个神经元的最年夜激活的图片跟地区,让 Llava 找出大众点;(c) 安慰神经元能够转变模子行动详细方式应用 LMMs 说明 LMMs 分为以下个步调:步调一:用 SAEs 取得单语义神经元SAE 是一个能够追溯到 1996 年的经典说明性的方式 [1] ,其实质是对特点找到一组相互关性很小的基,把特点剖析为这组基的一个稀少表现。由于基的相互关性很小,以是这些基很可能是单语义的。这篇文章应用了 OpenAI 的两层 SAE 实现:此中 z 是稀少表现也是 SAEs 的神经元,W_2 是一组基。步调二:应用 LLaVA 说明单语义神经元对上一步傍边 SAE 的每个神经元 z,取得练习集外面激活最年夜的 K 张图片,以及激活最年夜的图像地区,把这些图像给 LLaVA-OV-72B 找出独特点。模子对神经元天生的说明:炸薯条。步调三:安慰对应的神经元把 SAE 神经元的激活值调高,看看模子怎样表示。能够看到,无论能否包括图像输入或许是纯笔墨输入,LMM 与 LLM 的差别之处在于可能懂得视觉输入,咱们在稀少编码器的神经元中也找到了很多与 LLM 纷歧样的处所。在停止神经元探测时,咱们发明差别于先前的 LLM 任务,每每激活最激烈的神经元并不是与高层级观点直接相干的,而是很多低层级的感知神经元。这表现了模子的思考步调,先看懂物体是什么,再去思考更高层级的形象观点,譬如感情等观点。LMMs 奇特的神经元低层级感知神经元:对线条外形纹理激活的神经元物体神经元情感与共情神经元这种方式找到了良多感情神经元,在安慰这些神经元之前,模子是一个冰凉的 AI,安慰这些神经元可能激发模子的共情。多模态分歧性神经元对举措场景,以及对应笔墨图像都激活的神经元。下图刻画了对吃跟 hungry 笔墨都激活的神经元,如许的神经元在人脑中也存在 [2] 。定位模子过错起因LMM 在现实利用使每每会发生很多幻觉,下面就是 LLaVA-NeXT-8B 在现实场景下发生幻觉的一个例子,图片中并未标注玻利维亚但模子仍然答复了 “Yes”。为了研讨为何发生这一景象以及怎样经由过程安慰神经元的方法克制这一景象,咱们效仿了 [3,4] 的方式停止探索。经由过程探索发明,形成模子输出 Yes 的祸首罪魁并不在图像的懂得才能上,模子可能很好的找到须要存眷的点,并正确的找到各个国度的名字。但是,在笔墨下面,咱们发明模子过火的存眷了 Bolivia 这一词,招致了最后的输生产生幻觉。经由过程这一探索,咱们思考怎样可能克制这一幻觉景象并开展了试验。咱们展现了两个例子用安慰神经元的方法胜利克制了这一景象。咱们实验激活 OCR 相干的神经元,强行让模子存眷点会合在图像上,而这胜利使得模子 “转意回心”,不再依附笔墨的输出。可能的利用以及范围性由于这超越了文章的范畴,这篇文章只给出了一个利用:找到惹起幻觉的神经元并改正。在将来,如许的方式能够找出模子有迫害、不老实行动的起因并加以修改,真正到达可控的 AGI。但达到这个目的另有良多成绩须要逐一霸占:1. 更高效的主动可说明流程 —— 因为稀少编码器中的神经元数目浩繁且须要缓存大批激活值,说明全部神经元在现在价值非常昂扬。2. 主动激活神经元的流程 —— 主动且高效地寻觅并安慰神经元从而到达把持模子输出的目标3. 更正确的主动说明流程 —— 因为模子的范围性,很多神经元的说明每每存在过错,跟着多模态年夜模子的推理才能逐步加强,咱们信任这一成绩将会被缓缓霸占参考文献[1] Bruno A Olshausen and David J Field. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 381 (6583):607–609, 1996.[2] R Quian Quiroga, Leila Reddy, Gabriel Kreiman, Christof Koch, and Itzhak Fried. Invariant visual representation by single neurons in the human brain. Nature, 435 (7045):1102–1107, 2005.[3] Neel Nanda. Attribution patching: Activation patching at industrial scale. https://www.neelnanda.io/mechanistic-interpretability/attribution-patching,2023.Accessed: 2024-09-30.[4] Adly Templeton, Tom Conerly, Jonathan Marcus, Jack Lindsey, Trenton Bricken, Brian Chen, Adam Pearce, Craig Citro, Emmanuel Ameisen, Andy Jones, Hoagy Cunningham, Nicholas L Turner, Callum McDougall, Monte MacDiarmid, C. Daniel Freeman, Theodore R. Sumers, Edward Rees, Joshua Batson, Adam Jermyn, Shan Carter, Chris Olah, and Tom Henighan. Scaling monosemanticity: Extracting interpretable features from claude 3 sonnet. Transformer Circuits Thread, 2024© THE END 转载请接洽本大众号取得受权投稿或追求报道:
[email protected]]article_adlist-->
申明:新浪网独家稿件,未经受权制止转载。 -->