您当前的位置:首页 > 电脑百科 > 人工智能

大语言模型真的需要这么多层吗?

时间:2023-12-19 11:03:06  来源:CSDN  作者:

研究表明,移除70% 的注意力头和 20% 的前馈网络对上下文学习影响甚微,这暗示大语言模型或许训练得不够充分。

本文经授权转载宝玉老师的个人博客(微博@宝玉xp ),链 接https://baoyu.io/translations/amazon/do-large-language-models-really-need-all-those-layers

作者 | Karthik Gopalakrishnan

责编 | 夏萌

出处 | baoyu.io

研究表明,移除 70% 的注意力头和 20% 的前馈网络对上下文学习影响甚微,这暗示大语言模型或许训练得不够充分。

大语言模型(LLMs)已经存在一段时间,但随着 ChatGPT 的出现,今年它们真正进入了公众视野。LLMs 通常会在庞大的数据集上进行预训练,并且最近的版本还通过应用强化学习进行调整,以便更好地遵循指令并整合人类反馈。

这些 LLMs 展示出的一项令人着迷的能力是上下文学习,也就是说,模型能够仅凭几个(有时甚至不需要)好的示例,就学会如何执行新任务。遵循这种学习模式,当预训练数据量固定时,更大的 LLMs 在执行多种任务方面也表现出比小型模型更强的能力。

在我们即将在今年计算语言学协会(ACL)会议上展示的一篇论文中,我们从架构的可解释性角度出发,探讨了模型规模对于上下文学习的重要性。我们特别探讨了这个问题:所有 LLM 组件真的对于执行上下文学习都是必需的吗?

我们的研究以 OPT-66B 模型为案例,这是 Meta 去年开源的一款拥有 660 亿参数的大语言模型(LLM),旨在模仿 GPT-3,并且在我们研究时期是最大的公开解码器仅限大语言模型。我们的发现显示,模型的很大一部分可以被剔除而不影响其性能,这暗示 OPT-66B 乃至其他著名大语言模型可能存在训练不足的情况。

我们相信,识别并改善那些需要更精细训练的架构要素,可以帮助我们构建更强大、更有效的大语言模型。

大语言模型的基础构件

现代大语言模型(LLM)主要基于 Transformer 架构,核心在于一种称为注意力机制的技术。这种机制让模型能够学习在预测当前 Token 时,应该重点关注之前序列中的哪些 Token。

具体来说,LLM 采用多头注意力机制,这意味着模型同时运用多个不同的注意力机制,我们称之为“头”。例如,OPT-66B 模型就包含 64 层,每层有 72 个这样的头。这些多头注意力的输出会在每一层通过一个独立的前馈网络(FFN)进行处理。

我们分析 OPT-66B 的方法之一是对每个注意力头和 FFN 进行打分,以此判断它们在特定任务中的重要性。基于这些评分,我们进一步对模型进行了精简。

我们的研究发现,对于模型来说,较为重要的注意力头多集中于中间层,而重要的 FFN 则多位于后期层。令人惊讶的是,即便我们删去了高达 70% 的注意力头(在 OPT-66B 中约占 15.7B 个参数),模型在处理 14 种不同自然语言处理(NLP)任务时的零样本/少样本学习能力几乎未受影响。

大语言模型真的需要这么多层吗?

这张热图展示了 OPT-66B 模型在 14 个自然语言处理 (NLP) 任务中,用于五次少样本学习的注意力头的综合重要性评分,覆盖了模型的每一个层级。

研究发现,在不同任务和次数的学习过程中,对上下文学习至关重要(或不那么重要)的注意力头有相似之处。这说明存在一批既通用又与特定任务无关的注意力头,它们在上下文学习中发挥着核心作用。此外,我们还观察到,OPT-66B 模型中多达 20% 的前馈神经网络 (FFNs,大约有 85 亿参数) 可以在对零样本/少样本上下文学习的性能影响极小的情况下被移除。

我们采用的第二种分析方法是,量化 OPT-66B 模型中所有注意力头在执行两种与上下文学习相关的任务无关的基础操作的能力。这两种操作分别是前缀匹配和复制:即在上下文中查找当前 Token 之前出现的位置,并复制其后续的 Token(即后缀)。

大语言模型真的需要这么多层吗?

前缀匹配和复制操作

这两种操作专用的头部最初由机器学习研究公司 Anthropic 发现,被称为归纳头部。我们的研究表明,OPT-66B 模型中只有少数头部能够在这两种基础操作上都表现出色。而且,这些头部在不同程度上与我们之前识别的对特定任务重要的头部有所重叠。这意味着归纳头部不仅能够进行更为复杂的上下文学习相关行为,如隐性概念匹配,还表明它们并非是唯一具备这类能力的头部。

我们的一个关键发现是,只有少数的注意力头 (attention heads) 和前馈神经网络 (FFNs) 对于上下文学习显得至关重要,这揭示了 OPT-66B 乃至其他知名的大语言模型 (LLMs) 可能存在训练不充分的问题。这一点进一步印证了近期的一些研究成果,它们对在扩大模型规模时保持预训练数据量不变的有效性提出了质疑,认为要想取得最佳性能,必须让预训练数据的数量与模型的规模同步增长。对于我们的研究发布后出现的新版大语言模型,比如那些经过调整以更好地遵循指令的模型,了解它们在此类分析中的表现将会非常有意义。



Tags:大语言模型   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
为何大语言模型不会取代码农?
译者 | 布加迪审校 | 重楼生成式人工智能(GenAI)会取代人类程序员吗?恐怕不会。不过,使用GenAI的人类可能会取代程序员。但是如今有这么多的大语言模型(LLM),实际效果不一而足。如...【详细内容】
2024-03-21  Search: 大语言模型  点击:(19)  评论:(0)  加入收藏
大语言模型插件功能在携程的Python实践
作者简介成学,携程高级安全研发工程师,关注Python/Golang后端开发、大语言模型等领域。一、背景2023年初,科技圈最火爆的话题莫过于大语言模型了,它是一种全新的聊天机器人模型,...【详细内容】
2024-01-26  Search: 大语言模型  点击:(73)  评论:(0)  加入收藏
面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了
ChatGPT 的诞生,让基于 Transformer 的大型语言模型 (LLM) 为通用人工智能(AGI)铺开了一条革命性的道路,并在知识库、人机交互、机器人等多个领域得到应用。然而,目前存在一个普...【详细内容】
2024-01-03  Search: 大语言模型  点击:(114)  评论:(0)  加入收藏
大语言模型真的需要这么多层吗?
研究表明,移除70% 的注意力头和 20% 的前馈网络对上下文学习影响甚微,这暗示大语言模型或许训练得不够充分。本文经授权转载宝玉老师的个人博客(微博@宝玉xp ),链 接https://ba...【详细内容】
2023-12-19  Search: 大语言模型  点击:(67)  评论:(0)  加入收藏
大语言模型量化方法对比:GPTQ、GGUF、AWQ
在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。说明:每次加载LLM示例后,建议清除缓存,以防...【详细内容】
2023-11-17  Search: 大语言模型  点击:(261)  评论:(0)  加入收藏
SEO中的大语言模型量化方法
随着互联网的快速发展,搜索引擎优化(SEO)已经成为了企业提升网站流量和排名的重要手段。在SEO的过程中,大语言模型量化方法被广泛应用,以帮助企业更好地理解搜索引擎的工作原理,并...【详细内容】
2023-11-16  Search: 大语言模型  点击:(185)  评论:(0)  加入收藏
大语言模型数据泄露堪忧,超自动化Agent成解决之道
文/王吉伟阻碍广大企业应用大语言模型(LLM,Large Langeuage Models)的诸多因素中,无疑数据安全是最重要的。3月份ChatGPT发生了用户隐私数据泄露事件,OpenAI声明由于开源代码库中...【详细内容】
2023-11-15  Search: 大语言模型  点击:(187)  评论:(0)  加入收藏
无限上下文,多级内存管理!突破ChatGPT等大语言模型上下文限制
目前,ChatGPT、Llama 2、文心一言等主流大语言模型,因技术架构的问题上下文输入一直受到限制,即便是Claude 最多只支持10万token输入,这对于解读上百页报告、书籍、论文来说非常...【详细内容】
2023-11-02  Search: 大语言模型  点击:(273)  评论:(0)  加入收藏
十个2023年最具影响力的开源大语言模型
由于大型语言模型(LLM)的崛起,2023年被认为是开源领域的关键一年。下面精心挑选了一些在2023年上半年掀起波澜的最有影响力的模型。这些模型几乎可以与band、GPT-3.5、GPT4、Cl...【详细内容】
2023-10-13  Search: 大语言模型  点击:(332)  评论:(0)  加入收藏
引入大语言模型、首个支持国产算力生态,全新开源RL框架RLLTE来了
近年来,强化学习的研究热度不断攀升,在智能制造、自动驾驶、大语言模型等多个领域取得了耀眼成绩,展示出巨大的研究潜力。然而,强化学习算法高效、可靠的工程实现仍是长期存在的...【详细内容】
2023-10-12  Search: 大语言模型  点击:(362)  评论:(0)  加入收藏
▌简易百科推荐
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(4)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(7)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
AI干掉声优?音频大模型追逐“图灵时刻”
七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不...【详细内容】
2024-04-03    第一财经网  Tags:AI   点击:(5)  评论:(0)  加入收藏
生成式人工智能有哪些新趋势?
相较于去年,当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台,只要是以搜索结果为导向的内容,都会出现它的身影。但其实,人工智能的应用场...【详细内容】
2024-04-03  品谈教师帮    Tags:人工智能   点击:(6)  评论:(0)  加入收藏
AI世界的新难题:互联网的信息不够用了!
高质量数据的紧缺正成为AI发展的重要障碍。4月1日,据媒体报道,随着OpenAI、Google等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们...【详细内容】
2024-04-02  硬AI    Tags:AI   点击:(6)  评论:(0)  加入收藏
今天起,ChatGPT无需注册就能用了!
 来源:量子位    金磊 克雷西 发自 凹非寺  就在刚刚,OpenAI狠狠地open了一把:从今天起,ChatGPT打开即用,无需再注册帐号和登录了!  像这样,直接登录网站,然后就可以开启对...【详细内容】
2024-04-02    量子位   Tags:ChatGPT   点击:(7)  评论:(0)  加入收藏
AI时代,面对死亡有了第二种选择?
今年春节期间,罗佩玺瞒着妈妈用AI技术“复活”了外婆,她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年,妈妈和外婆终于又“见面”了,这是她送给妈妈的生日礼物。收...【详细内容】
2024-04-02    中国青年报  Tags:AI时代   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条