您当前的位置：首页 > 电脑百科 > 人工智能

大模型速度狂飙2.39倍！清华联手微软首提SoT，让LLM思考更像人类

时间：2023-08-09 14:14:29 来源：新智元作者：

+ 加入收藏

新智元报道

编辑： Lumina 桃子

【新智元导读】清华与微软合作提出了一种全新「思维骨架」(SoT)，大大减少了LLM回答的延迟，并提升了回答的质量。

由于当前先进的LLM采用了顺序解码方式，即一次生成一个词语或短语。

然而，这种顺序解码可能花费较长生成时间，特别是在处理复杂任务时，会增加系统的延迟。

受人类思考和写作过程的启发，来自清华微软的研究人员提出了「思维骨架」（SoT），以减少大模型的端到端的生成延迟。

论文地址：https://arxiv.org/pdf/2307.15337.pdf

SoT引导LLM，首先生成答案的骨架，然后进行并行API调用或分批解码，并行完成每个骨架点的内容。

SoT不仅大大提高了速度，在11个不同的LLM中可达2.39倍，而且还可能在多样性和相关性方面提高多个问题类别的答案质量。

研究人员称，SoT是以数据为中心优化效率的初步尝试，揭示了推动LLM更像人类一样思考答案质量的潜力。

SoT，让大模型并行解码

目前，最先进的LLM的推理过程依旧缓慢，交互能力大大减分。

对此，研究人员总结出LLM推理慢的3个主要原因：

- 大模型需要大量内存，内存访问和计算。

比如，GPT-3的FP16权重需要350 GB内存，这意味着仅推理就需要5×80GB A100 GPU。即使有足够多的GPU，繁重的内存访问和计算也会降低推理（以及训练）的速度。

- 主流Transformer架构中的核心注意力操作受I/O约束，其内存和计算复杂度与序列长度成二次方关系。

- 推理中的顺序解码方法逐个生成token，其中每个token都依赖于先前生成的token。这种方法会带来很大的推理延迟，因为token的生成无法并行化。

先前的研究中，大多将重点放在大模型规模，以及注意力操作上。

这次，研究团队展示了，现成LLM并行解码的可行性，而无需对其模型、系统或硬件进行任何改动。

研究人员可以通过Slack使用Claude模型将延迟时间从22秒，减少到12秒（快了1.83倍），通过A100上的Vicuna-33B V1.3将延迟时间从43秒减少到16秒（快了2.69倍）。

这个想法，来源于对人类自身如何回答问题的思考。

对于我们来讲，并不总是按顺序思考问题，并写出答案。相反，对于许多类型的问题，首先根据一些策略推导出骨架，然后添加细节来细化和说明每一点。

那么，这一点在提供咨询、参加考试、撰写论文等正式场合中，更是如此。

我们能够让LLM以同样的方式思考吗？

为此，研究人员提出了「思维骨架」（SoT）。具体来说，引导LLM首先自己推导出一个骨架。

在骨架的基础上，LLM可以并行地完成每个点，从而提高速度。SoT既可用于加速分批解码的开源模型，也可用于加速并行API调用的闭源模型。

最后，研究人员在最近发布的11个LLM上测试SoT。

结果显示，SoT不仅提供了相当大的加速度（最高可达2.39倍），而且它还可以在多样性和相关性方面提高几个问题类别的答案质量。

在vicuna-80的所有问题中，SoT的净胜率和与正常一代相比的速度

SoT框架

- 骨架阶段。

SoT首先使用骨架提示模版

，以问题q为参数，组装一个骨架请求。编写骨架提示模板是为了引导LLM输出简洁的答案骨架。然后，研究人员从LLM的骨架答案

中提取B点。

- 点扩展阶段

基于骨架，让LLM在每个点上平行展开。

具体地说，对于带有索引b和骨架

的点，SoT使用作为LLM的点扩展请求，其中

是点扩展提示模板。最后，在完成所有的点之后，研究人员连接点扩展响应来得到最终的答案。

如下，Prompt 1和 Prompt 2显示了，研究人员当前实现使用的骨架提示模板

和点扩展提示模板

。

- 骨架提示模板。为了使输出的骨架简短且格式一致，以提高效率和便于提取要点，骨架提示模板（1）精确描述了任务，（2）使用了两个简单的示范，（3）提供了部分答案「1」为LLM继续写作。

- 点扩展提示模板。点扩展提示模板描述点扩展任务，并提供部分答案。研究人员还提供了指示「在1ー2个句子中非常简短地写出」的说明，以便LLM使答案保持简洁。

- 并行点扩展。对于只能访问API的专有模型可以发出多个并行的API调用。对于开源模型，让模型将点扩展请求作为批处理。

为什么SoT降低了解码延迟？

首先要对SoT为什么能够带来显著的端到端加速有一个高层次的理解。为了简单起见，在这里集中讨论点扩展阶段。

具有并行API调用的模型。普通方法向服务器发送一个API请求，而 SoT 并行发送多个 API 请求以获得答案的不同部分。

根据经验，研究人员观察到，在论文中使用的API的延迟与响应中的token数呈正相关。如果请求数量没有达到速率限制，SoT显然会带来加速。

采用批量解码的开源模型。普通的方法只处理一个问题，并按顺序解码答案，而SoT处理多个点扩展请求和一批答案。

实验结论

实验数据集：使用Vicuna-80数据集，它由跨越9个类别的80个问题组成，如编码、数学、写作、角色扮演等。

模型：对11个最近发布的模型进行SoT测试，其中包括9个开源模型和2个基于API的模型)。

评估的模型，所有的开源模型都是根据不同大小的LLaMA模型进行微调的

效率评估：

1. SoT减少不同模型上的端到端延迟

图4a显示了应用SOYT后，每个模型在所有问题类别中的平均加速。

应用SoT后，11个模型中，有6个模型速度有2倍以上的提升（即LLaMA2-Chat-7B，LLaMA2-Chat-13B，Vicuna-7B V1.1，OpenChat-13B，Vicuna-33B V1.3，UltraLM-13B）。

在ChatGPT-3.5，Vicuna-13B V1.3和Vicuna-7B V1.3上则有1.8倍以上的速度提升。

但在StableVicuna-13B和Claude中，速度几乎没有提升。

如果排除数学和代码的问题类别，速度提升会较排除前略高，如图4b所示。

2. SoT减少不同类别问题的端到端延迟

图5显示了每个问题类别在所有模型中的平均速度提升。

那些SoT能够提供高质量答案的问题类别标记为绿色，不能的其他问题类别标记为红色。

当前的SoT已经可以提升所有类别问题的速度。

但对于那些SoT可以提供高质量答案的5个问题类别（即知识、常识、通用、角色扮演、虚拟情景），SoT可以将整体答案生成过程加速1.95倍-2.27倍。

3. SoT和正常生成的延迟对比

图6显示了模型正常生成和SoT生成的绝对延迟的比较。与正常生成相比，应用SoT的模型生成的速度提升是显而易见的。

而解码阶段是内容生成端到端延迟的主要原因。

因此，尽管SoT在骨架阶段比正常生成具有较高的预填充延迟，但这对总体延迟和总体速度提升几乎没有影响。

SoT和正常生成的延迟对比。对于开源模型，预填充和解码阶段的延迟分解以不同的颜色显示。对于基于API的模型，研究不记录此类延迟分解信息：标记为「decode」的柱状图表示预填充和解码阶段的整体延迟。

质量评估：

为了比较正常的顺序生成（以下简称为正常）和SoT生成的答案质量，研究采用了两个基于LLM的评估框架: FastCha和LLMZoo。

评估过程是向LLM评判器（本研究中为ChatGPT-3.5）展示一个问题和一对答案（由正常和SoT生成），并询问其偏好。

回答可能是SoT的答案胜出、与正常答案并列、输给正常答案。

1. 整体质量：

图7显示了使用FastChat和LLMZoo两个指标下使用SOT的模型在所有问题下的赢/平/输率。

在SoT严格优于基线时，两个指标之间存在差异(49.0% vs.10.4%)。

但这两个指标都认为，在超过76%的情况下，SoT并不比基线（正常生成）差。

对于FastChat指标，研究人员还展示了排除数学和编码问题（SoT不适用于这些问题，请参见3.2.2节）的比率：

在超过90％的情况下，SoT与基准相当。这表明SoT的答案保持着良好的质量。

使用FastChat和LLMZoo的「基准」，SoT相较于正常生成，在大约80%的情况下表现更好或者相当。

2. SOT在不同类别问题上的表现

图8计算了所有问题类别的净胜率（胜率-败率）。

与图7类似，LLMZoo指标下SoT的质量比FastChat的更好。

但不论在哪个框架指标下，SoT在泛型、常识、知识、角色扮演和反事实方面的表现都相对较好，而在写作、费米问题、数学和编码方面表现相对较差。

研究人员调查了如下一些问题的答案，并总结了下面的发现。

净胜率低的类别

数学

数学问题需要循序渐进的思考。如果不知道前面的步骤，很难推导出下面的步骤。SoT强调扩展顺序思考步骤，以成功解决这些问题的重要性。

相比之下，SoT要求模型首先提出解决方案的框架，不参考以前的结果独立地推断每个单独的步骤。

这两个都是具有挑战性的任务。

强模型能够得到（a）正确，但在（b）失败。

在下面的例子中，ChatGPT-35得到了正确的框架步骤。然而，在不知道第一步的结果的情况下，模型开始在第二步犯错误。

对于较弱的模型，步骤(a)甚至都很难达到正确的标准。例如，如下图所示，在 Vicuna-13B V1.3的 SoT 解决方案中，第三步「应用箔片」是突然出现的。

这使 SoT 的解决方案并不正确(尽管普通代的解决方案也不正确)。

编码

在大多数情况下，模型能够在框架阶段将编码问题分解为较小的任务，但是在论点扩展阶段的生成质量很差。

这可能是由于研究人员没有仔细地为编码设计一个特殊的点扩展提示符。

在某些情况下，模型只生成一个描述，说明如何在不给出代码的情况下完成实现。

写作

写作问题通常是写一封电子邮件，一篇博客文章，或者一篇给定场景下的评论。

在FastChat和LLMZoo的详细评估结果中，最主要也是最常见的抱怨是SoT的回答不够详细。但这一点可以通过要求更多细节的点扩展提示得到改善。

净胜率高的类别

反事实，知识，常识，通用

所有这四个类别都有相同的特征：理想的答案应该包括几个相对独立的点。

在扩展细节之前，让LLM生成一个框架可以对这个问题进行更全面的讨论。

此外，将答案组织成一个点的列表使得答案更容易阅读，而普通生成的答案有时结构化程度较低，可读性较差。

角色扮演

总结以上内容，可以得出：

如果提问问题可以从多个论点出发，并且这些论点的细节可以独立扩展，SoT的表现十分良好。

但如果是需要逐步思考的问题，比如数学问题，SoT就很难发挥作用。

为了能在更广泛的问题中通用SoT，一个可行的途径是使SoT根据问题自适应地退回到1阶段的顺序生成，而不触发点扩展。

研究中的一些结果表明，某些LLMs已经能够偶尔在没有特殊提示或调整的情况下实现这一点。

质量分解: 模型

接下来，团队还研究了SoT在不同模型上的性能，计算了图9中所有模型的净赢率。

同样，团队看到FastChat和LLMZoo的两个通用指标具有不同的绝对值，但排名相似。

特别是，这两个指标都认为OpenChat-13B、Vicuna-7B V1.1、Claude、chatgpt-3.5的净胜率较低，而Vicuna-13B V1.3、 StableVicuna-13B 和 UltraLM-13B的净胜率较高。

净胜率低的模型

OpenChat-13B和Vicuna-7B V1.1。

对于较弱的模型，如OpenChat-13B和Vicuna-7B V1.1，他们不能精确地跟随SoT提示。OpenChat-13B中框架有时包含着不想要的内容。

对于OpenChat-13B和Vicuna-7B V1.1，在回答需要细节的时候，它们偶尔不会在点扩展阶段写出任何东西。

净胜率高的模型。高净胜率的模型（Vicuna-13B V1.3，StableVicuna-13B 和 UltraLM-13B）介于上述两个极端之间。

研究得出，对于能够理解SoT提示的模型，答案的质量可能会得到提高。

研究团队期望能进一步改进SoT提示或微调模型，使LLM更容易理解框架和论点扩展的提示，最终获得更好质量的答案。

质量分解：度量

所有以前的评估都使用关于答案总体质量的度量标准。

在图10中，研究人员显示了来自LLMZoo的更详细的指标，以揭示SoT在哪些方面可以改善或损害答案质量。

平均而言，可以看到SoT提高了多样性和相关性，同时损害了沉浸感和一致性。

使用LLMZoo的指标，SoT相对于正常生成在多样性和相关性方面表现良好，而在连贯性和沉浸感方面相对较差。

总的来说，SoT鼓励LLMs直接从多个方面讨论答案，而无需使用填充词。

尽管回答会有一定程度的连贯性和沉浸感的损失，但SoT大大改善了答案的多样性和相关性。

然而，在回答的连贯性和沉浸感方面，大约60%的情况下SoT的生成也不比正常生成差。

更多细节参考论文。

局限性

由于提示集的限制、现有LLM判断的偏差，以及LLM属性评价的内在困难，研究人员目前对LLM问题的答案质量的评价还远不全面。

对更可靠的质量评价而言，扩展提示集，以及用人工评价补充基于LLM的评价非常重要。

然而，目前的研究主要集中在揭示潜在的效率效益上，即通过重新思考现有LLM「全序列解码」的必要性，可以实现相当大的加速。

因此，研究人员在最后将对答案质量的更彻底的评估留给了未来的工作。

参考资料：

https://arxiv.org/pdf/2307.15337.pdf

Tags：大模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

AI是万灵药？Meta要把大模型塞进AR眼镜里

寻找下一块“屏幕”，这无疑是最近几年科技行业的一个热门赛道。随着个人计算机点燃了互联网，智能手机让移动互联网无处不在之后，这前后两次造富神话的出现，也让所有人都在期待下...【详细内容】

2024-04-09　　Search: 大模型点击:(2)　　评论:(0)　　加入收藏

AI程序员上岗垂类大模型应用迎来井喷期

能自动写代码的“AI员工”、逐渐告别不够好用的智能客服，无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业，IT、工业生产、金融、服务...【详细内容】

2024-04-07　　Search: 大模型点击:(3)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

大模型Kimi火了，长文本“卷”出新高度

近日，AI智能助手Kimi宣布支持200万字无损上下文，在长上下文窗口技术上再次取得突破，引燃人工智能领域新一轮投资热情。　　摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo，支持1...【详细内容】

2024-03-29　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

大模型应用的 10 种架构模式

作者 | 曹洪伟在塑造新领域的过程中，我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说，已经司空见惯，设计模式已成为程序员们的重...【详细内容】

2024-03-27　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

超长文本是AI大模型的能力突破口吗？

◎记者刘怡鹤近日，能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为，国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】

2024-03-26　　Search: 大模型点击:(8)　　评论:(0)　　加入收藏

百度AI“咬”了一口苹果大模型商用有戏了？

百度3月25日突传利好。据知情人士透露，百度将为苹果今年发布的iPhone16、Mac系统和ios18提供AI功能。消息人士称，苹果曾与阿里以及另外一家国产大模型公司进行过洽谈，最后确定...【详细内容】

2024-03-26　　Search: 大模型点击:(18)　　评论:(0)　　加入收藏

Kimi引燃大模型“长文本竞赛”，阿里360百度急出手

从ChapGPT到Sora，从数千亿参数到千万长文本，大模型浪潮下，永远不缺热点。近日，“Kimi概念股暴涨”“Kimi为宕机道歉”等词条先后冲上微博热搜，让月之暗面这家刚成立一年的人工智...【详细内容】

2024-03-25　　Search: 大模型点击:(15)　　评论:(0)　　加入收藏

Kimi爆了国产大模型应用元年还远吗？

国产大模型应用Kimi近日可谓横空出世。根据Similarweb数据，Kimi智能助手的周度访问量由23年12月初的15万提升至近期（3.10-3.16）的超过200万，APP端下载量也快速提升，从2月初的效率...【详细内容】

2024-03-22　　Search: 大模型点击:(14)　　评论:(0)　　加入收藏

国产大模型开卷“比谁长”？Kimi爆火点燃长文本竞争赛道

来源：财联社近日，又一现象级AI应用Kimi爆火出圈，在用户端和资本市场都掀起波澜，引发多个Kimi相关概念股异常波动。海天瑞声（688787.SH）、中广天择（603721.SH）等上市公司纷纷回应“无...【详细内容】

2024-03-22　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

▌简易百科推荐

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(1)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(2)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个

站内最新

栏目相关

· 藏在AI背后的“吃电狂魔”

· OpenAI和谷歌再起纷争：AI的尽头是内容

· AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

· 和“数字人”交朋友，当心隐私被出卖......

· AI“复活”成产业链：成本可降至数百元

· 多方热议人工智能产业新机遇

· 人形机器人时代来了吗

· AI重塑社交：腾讯与字节跳动的新赛场

· 第一批用 Kimi 做内容的网红已经杀疯了

· 昆仑万维发布面向人工智能时代的六条人才宣言

· AI干掉声优？音频大模型追逐“图灵时刻”

· 生成式人工智能有哪些新趋势？

· AI世界的新难题：互联网的信息不够用了！

· 今天起，ChatGPT无需注册就能用了！

· AI时代，面对死亡有了第二种选择？

· 影视业AI应用如何超乎想象？

· 当AI会作词作曲唱歌，音乐人何去何从

· 大模型Kimi火了，长文本“卷”出新高度

· 把GPT变成算命大师需要几步？

· Sora开启文生视频新纪元影视游戏产业加速变局求突破

站内热门