大型语言模型（LLM）技术精要，不看亏了

时间：2023-11-06 14:28:02 来源：微信公众号作者：渡码

今天分享一篇知乎高赞文章，作者是张俊林老师。

大型语言模型（LLM）技术精要，不看亏了图片

读完收获很多，能帮大家更好地理解、学习大模型。原文有2.8w字，我提炼了核心要点，阅读需要10min。

ChatGPT的出现给很多人带来了惊喜和醒悟。有人惊喜地发现大型语言模型（LLM）的效果如此出色，而有人则意识到我们对LLM的认知和发展理念距离世界先进水平还有很大差距。我是既惊喜又醒悟的一员，也是典型的中国人，善于自我反思。因此，我开始反思，并将这篇文章作为反思的结果。

我认为，AI target=_blank class=infotextkey>OpenAI在LLM的理念和相关技术方面领先于国外的google和DeepMind大约半年到一年的时间，领先国内大约两年左右。在LLM这个问题上，梯队很明显，Google应该排在第二位，最能体现Google技术眼光的是PaLM和Pathways，推出时间大约在2022年2月到4月之间。同一时期，OpenAI推出的是InstructGPT，从这里可以看出Google和OpenAI的差距。至于为什么这么说，你看了后面的内容就能理解。DeepMind之前的重点一直在强化学习攻克游戏和AI for science等方面，对LLM的关注比较晚，大约是在2021年才开始重视这个方向，目前仍在追赶状态。Meta在LLM上的关注更少，重点一直不在LLM上，目前也在努力追赶。这些机构是目前做得最好的，即便如此，国内的差距也是可以理解的。至于OpenAI关于LLM的理念是什么，我会在本文的最后一部分谈谈我的认知。

本文试图回答一些问题：ChatGPT是否带来了NLP乃至AI领域的研究范式转换？如果是，那会带来怎样的影响？LLM从海量数据中学到了什么知识？LLM又是如何存取这些知识的？随着LLM规模逐步增大，会带来什么影响？什么是In Context Learning？为什么它是一项很神秘的技术？它和Instruct又是什么关系？LLM具备推理能力吗？思维链CoT又是怎么做的？等等。通过阅读本文，您将对这些问题有一个答案。

在谈到LLM技术现状之前，我先宏观地谈一下我心目中的研究范式转换问题，这样我们才能更清晰地理解具体技术的变化。

如果我们回顾NLP领域的技术发展，可能会发现两次大的研究范式转换。第一次转换是从深度学习到两阶段预训练模型，时间跨度大约是2013年至2020年。在Bert和GPT模型出现之前，NLP领域主要依赖于深度学习模型，其中核心技术是改进的LSTM和CNN模型以及Sequence to Sequence+Attention的总体技术框架。然而，深度学习在NLP领域的应用并没有取得很大的成功，主要原因是数据量的限制和特征抽取器的表达能力不够强。Bert和GPT模型的出现改变了这一现状，引领了NLP领域的技术转变。这种转变带来了两个影响：一是中间任务的消亡，二是不同研究方向技术路线的统一。

第二次转换是从预训练模型走向通用人工智能（AGI），时间跨度大约是2020年至今。ChatGPT是这次转换的关键节点，它实现了理想LLM模型的接口层，让LLM适应人类的习惯命令表达方式。这对于提高LLM的易用性和用户体验至关重要。这次转换将进一步推动LLM模型的发展，纳入更多的研究领域，逐步实现通用人工智能。

在这个背景下，很多NLP子领域将不再具备独立研究的价值，因为LLM模型可以通过吸收更多的领域知识来解决这些问题。同时，更多NLP之外的研究领域也将被纳入LLM技术体系，成为通用人工智能的一部分。图像处理和多模态任务是其中的一个自然选择。

总的来说，LLM模型的发展趋势是追求规模越来越大的模型，通过增加预训练数据的多样性来涵盖更多的领域知识。人机接口技术也将继续改进，让LLM更好地适应人类的表达方式。这些技术转变将对NLP领域和其他研究领域产生深远影响。

接下来，我们来梳理下GPT 3.0之后LLM模型的主流技术进展。

Transformer是一种强大的特征抽取器，通过预训练过程，它可以学习到丰富的知识。这些知识可以分为语言类知识和世界知识两大类。

语言类知识包括词法、词性、句法、语义等与自然语言理解相关的知识。研究表明，Transformer可以学习各种层次的语言学知识，并且这些知识在模型的不同层次中有所分布。浅层的语言知识如词法、词性、句法等存储在低层和中层，而抽象的语言知识如语义类知识则广泛分布在中层和高层。

世界知识指的是关于真实事件和常识性知识的知识。研究表明，Transformer可以从训练数据中吸收大量的世界知识，并且这些知识主要分布在中层和高层，尤其集中在中层。随着模型层数的增加，LLM可以学习到更多的世界知识。因此，可以将LLM看作是一种以模型参数体现的隐式知识图谱。

对于训练LLM模型所需的数据量，研究表明，对于语言学知识来说，使用1000万到1亿单词的语料就足够了，但要学习事实类知识，则需要更多的训练数据。随着训练数据量的增加，预训练模型在各种下游任务中的效果也会越好。因此，从增量的训练数据中学到的更多是世界知识。

LLM模型将知识存储在Transformer的模型参数中。模型参数由多头注意力（MHA）和前馈神经网络（FFN）两部分组成。MHA主要用于计算单词或知识之间的相关强度，并对全局信息进行集成。而FFN部分存储了具体的知识。一种观点认为，FFN可以看作是一个存储大量具体知识的Key-Value存储器。FFN的第一层是Key层，用于识别输入中的语言或知识模式。第二层是Value层，用于存储与Key层对应的具体知识。FFN的输入层是通过Self Attention得到的整个输入句子的整体信息。FFN的正向传播过程可以看作是通过Key层检测知识模式，然后取出对应的Value，并体现在输出上。

大型语言模型（LLM）技术精要，不看亏了图片

修正LLM模型中存储的知识有几种方法。一种方法是从训练数据的源头进行修正。通过追踪某条知识对应的训练数据源头，可以删除相关的数据源，然后重新预训练整个LLM模型。另一种方法是对LLM模型进行fine-tuning，根据新知识构建训练数据，让LLM模型在这个数据上进行fine-tuning。还有一种方法是直接修改LLM模型参数中存储的知识。这些方法都有各自的优缺点，需要根据具体情况选择合适的方法。

随着LLM模型规模的增大，对于预训练阶段来说，增加训练数据量和模型参数规模是提高模型效果的关键。研究表明，同时增加训练数据量和模型参数规模效果最好。此外，随着模型规模的增大，LLM在不同类型的任务上表现也有所不同。对于知识密集型任务，随着模型规模增大，任务效果越来越好。对于某些任务，随着模型规模的增大，任务效果呈现出U形增长曲线。对于一些任务，LLM具备一种"涌现能力"，当模型规模足够大时，任务效果突然出现性能增长。这些现象都需要进一步深入研究。

In Context Learning和Instruct是两种不同的任务描述方式。In Context Learning是通过给出具体示例来描述任务，而Instruct是一种更抽象的任务描述方式。目前的研究表明，LLM可以从给定的示例中学习到Instruct的描述，但是关于LLM是如何实现这种学习的，目前还没有确切的答案。

在增强LLM的推理能力方面，目前的研究主要集中在两个方向。一种是基于Prompt的方法，通过合适的提示语或示例来激发LLM的推理能力。另一种是在预训练阶段引入程序代码，以增强LLM的推理能力。这两种方法可以互相补充，但从长远来看，增加训练数据的多样性和引入代码参与预训练是更为重要的。

基于Prompt的方法在激发LLM模型推理能力方面有着重要作用。可以将其分为三条技术路线。

第一种思路是在问题上追加辅助推理Prompt。这种方法简单直接，但在众多领域都很有效。具体做法是在问题前追加提示语，例如"Let’s think step by step"，然后将LLM的输出与问题拼接，再追加提示语"Therefore, the answer is"，这样可以大幅增加LLM在各项推理任务中的效果。

第二种思路是基于示例的思维链（Chain of Thought）Prompting。这个方向是LLM推理研究的主要方向。通过给出人工编写的推理示例，详细描述每个推理步骤，让LLM模型学会推理。这种方法可以显著提升LLM模型的推理能力。

第三种思路体现了一种分治算法的思想。将复杂的推理问题分解成若干容易解决的子问题，然后逐步解决子问题，最终推导出整个问题的答案。这种思路类似于分治算法，可能是揭示问题本质、解决LLM复杂推理问题的道路。

此外，加入代码预训练可以显著增强LLM模型的推理能力。通过在预训练过程中加入代码数据，可以提升LLM模型在推理任务中的表现。这可能是因为代码数据中包含了数学类或逻辑推理类的数据，对解决下游数学推理问题有帮助。

总体而言，LLM模型具备推理能力，只是我们需要合适的方法来激发它。未来的研究可以集中在增强LLM的复杂推理能力、探索LLM在NLP之外领域的应用、改进人机交互接口、构建高难度的综合任务评测数据集等方向。此外，还可以研究如何提高LLM模型的训练效率，如稀疏化模型等技术选项。

最后，要注意在复刻类似ChatGPT的模型时，选择合适的预训练模式、引入代码数据进行预训练、注意数据质量和多样性、降低模型规模的同时保持效果、设计易用的人机交互接口等。这些选择将有助于实现强大的LLM模型。

Tags：LLM 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

一文解析如何基于 LangChain 构建 LLM 应用程序

Hello folks，我是 Luga，今天我们继续来聊一下人工智能(AI)生态领域相关的技术 - LangChain ，本文将继续聚焦在针对 LangChain 的技术进行剖析，使得大家能够了解 LangChain 实现...【详细内容】

2024-03-07　　Search: LLM 点击:(31)　　评论:(0)　　加入收藏

有了LLM，所有程序员都将转变为架构师？

编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）生成式人工智能是否会取代人类程序员？可能不会。但使用生成式人工智能的人类可能会，可惜的是，现在还不是时候。目前，我们正在见...【详细内容】

2024-03-07　　Search: LLM 点击:(19)　　评论:(0)　　加入收藏

一文读懂大型语言模型LLM

在当今的技术世界中，人工智能正以前所未有的速度发展和演变。这一领域的快速发展得益于先进的机器学习算法、海量数据的可用性以及计算能力的显著提升。特别是，在自然语言处理...【详细内容】

2024-01-02　　Search: LLM 点击:(81)　　评论:(0)　　加入收藏

SQL应用于LLM的程序开发利器——开源LMQL

译者 | 朱先忠审校 | 重楼我相信你听说过SQL，甚至已经掌握了它。SQL（结构化查询语言）是一种广泛用于处理数据库数据的声明性语言。根据StackOverflow的年度调查，SQL仍然是世界上...【详细内容】

2023-12-27　　Search: LLM 点击:(76)　　评论:(0)　　加入收藏

生成式人工智能潜力的释放：软件工程师的MLOps和LLM部署策略

译者 | 李睿审校 | 重楼生成式人工智能最近的爆发标志着机器学习模型的能力发生了翻天覆地的变化。像DALL-E 2、GPT-3和Codex这样的人工智能系统表明，人工智能系统在未来可以...【详细内容】

2023-12-18　　Search: LLM 点击:(116)　　评论:(0)　　加入收藏

构建更好的基于LLM的应用程序的四大秘诀

作者 | Adrien Treuille译者 | 布加迪自从OpenAI发布首个ChatGPT模型以来，人们对生成式AI的兴趣激增。基于大语言模型（LLM）的应用程序现处于企业思考生产力和效率的最前沿，用于...【详细内容】

2023-12-13　　Search: LLM 点击:(133)　　评论:(0)　　加入收藏

解决LLaMA、BERT等部署难题：首个4-bit浮点量化LLM来了

大语言模型 (LLM) 压缩一直备受关注，后训练量化（Post-training Quantization) 是其中一种常用算法，但是现有 PTQ 方法大多数都是 integer 量化，且当比特数低于 8 时，量化后模型的...【详细内容】

2023-11-17　　Search: LLM 点击:(144)　　评论:(0)　　加入收藏

LLM量化包与传统投资策略的对比分析

随着科技的发展和金融市场的变化，投资者们在寻求更有效的投资策略时，开始关注量化投资。LLM量化包作为一种先进的量化投资工具，与传统投资策略相比，具有许多独特的优势。本文将...【详细内容】

2023-11-17　　Search: LLM 点击:(132)　　评论:(0)　　加入收藏

LLMs应用框架：LangChain端到端语言模型

在当今数字化时代，语言处理技术的重要性日益凸显。大语言模型（LLMs）作为其中的重要分支，已经在多个领域取得了显著的进展。然而，如何将这些模型应用到实际场景中，实现端到端的自动...【详细内容】

2023-11-16　　Search: LLM 点击:(167)　　评论:(0)　　加入收藏

什么是 LLM （大型语言模型）以及如何构建LLM？

来源：Mangesh Gothankar在本文中，我们将了解如何从零开始构建 LLM（大型语言模型）。你可能会问，为什么要做这样的事情？是这样的，LLM 在无数应用中都非常有用，从头开始构建一个 LLM，你...【详细内容】

2023-11-09　　Search: LLM 点击:(90)　　评论:(0)　　加入收藏

▌简易百科推荐

即将过时的 5 种软件开发技能！

作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）时至今日，AI编码工具已经进化到足够强大了吗？这未必好回答，但从2023 年 Stack Overflow 上的调查数据来看，44%...【详细内容】

2024-04-03　　　　51CTO　　Tags:软件开发　点击:(5)　　评论:(0)　　加入收藏

跳转链接代码怎么写？

在网页开发中，跳转链接是一项常见的功能。然而，对于非技术人员来说，编写跳转链接代码可能会显得有些困难。不用担心！我们可以借助外链平台来简化操作，即使没有编程经验，也能轻松实...【详细内容】

2024-03-27　　蓝色天纪　　　　Tags:跳转链接　点击:(12)　　评论:(0)　　加入收藏

中台亡了，问题到底出在哪里？

曾几何时，中台一度被当做“变革灵药”，嫁接在“前台作战单元”和“后台资源部门”之间，实现企业各业务线的“打通”和全域业务能力集成，提高开发和服务效率。但在中台如火如荼之...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:中台　点击:(8)　　评论:(0)　　加入收藏

员工写了个比删库更可怕的Bug！

想必大家都听说过删库跑路吧，我之前一直把它当一个段子来看。可万万没想到，就在昨天，我们公司的某位员工，竟然写了一个比删库更可怕的 Bug！给大家分享一下（不是公开处刑），希望朋友们...【详细内容】

2024-03-26　　dbaplus社群　　　　Tags:Bug 　点击:(5)　　评论:(0)　　加入收藏

我们一起聊聊什么是正向代理和反向代理

从字面意思上看，代理就是代替处理的意思，一个对象有能力代替另一个对象处理某一件事。代理，这个词在我们的日常生活中也不陌生，比如在购物、旅游等场景中，我们经常会委托别人代替...【详细内容】

2024-03-26　　萤火架构　　微信公众号　　Tags:正向代理　点击:(10)　　评论:(0)　　加入收藏

看一遍就理解：IO模型详解

前言大家好，我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢，先问问大家几个问题哈~什么是IO呢？什么是阻塞非阻塞IO？什么是同步异步IO？什么是IO多路复用？select/epoll...【详细内容】

2024-03-26　　捡田螺的小男孩　　微信公众号　　Tags:IO模型　点击:(8)　　评论:(0)　　加入收藏

为什么都说 HashMap 是线程不安全的？

做Java开发的人，应该都用过 HashMap 这种集合。今天就和大家来聊聊，为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说，HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】

2024-03-22　　Java技术指北　　微信公众号　　Tags:HashMap 　点击:(11)　　评论:(0)　　加入收藏

如何从头开始编写LoRA代码，这有一份教程

选自 lightning.ai作者：Sebastian Raschka机器之心编译编辑：陈萍作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大...【详细内容】

2024-03-21　　机器之心Pro　　　　Tags:LoRA 　点击:(12)　　评论:(0)　　加入收藏

这样搭建日志中心，传统的ELK就扔了吧！

最近客户有个新需求，就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的...【详细内容】

2024-03-20　　dbaplus社群　　　　Tags:日志　点击:(4)　　评论:(0)　　加入收藏

Kubernetes 究竟有没有 LTS？

从一个有趣的问题引出很多人都在关注的 Kubernetes LTS 的问题。有趣的问题2019 年，一个名为 apiserver LoopbackClient Server cert expired after 1 year[1] 的 issue 中提...【详细内容】

2024-03-15　　云原生散修　　微信公众号　　Tags:Kubernetes 　点击:(6)　　评论:(0)　　加入收藏

推荐资讯

你的自拍和聊天记录，正	手机还装不下AI的梦想
中国修订基础设施等特	金店跑路，存金难兑黄
花10万买的数字藏品成	超30城支持！房子“以旧
耶伦记者会：访华取得三	tiktok优质视频判断标