当prompt策略遇上分治算法，南加大、微软让大模型炼成「火眼金睛」

时间：2024-03-12 10:26:25 来源：机器之心Pro 作者：

近年来，大语言模型（LLMs）由于其通用的问题处理能力而引起了大量的关注。现有研究表明，适当的提示设计（prompt enginerring），例如思维链（ChAIn-of-Thoughts），可以解锁 LLM 在不同领域的强大能力。

然而，在处理涉及重复子任务和 / 或含有欺骗性内容的任务（例如算术计算和段落级别长度的虚假新闻检测）时，现有的提示策略要么受限于表达能力不足，要么会受到幻觉引发的中间错误的影响。

为了使 LLM 更好地分辨并尽可能避免这种中间错误，来自南加州大学、微软的研究者提出了一种基于分治算法的提示策略。这种策略利用分治程序来引导 LLM。

论文地址：https://arxiv.org/pdf/2402.05359.pdf

具体来讲，我们将一个大任务的解决过程解耦为三个子过程：子问题划分、子问题求解以及子问题合并。理论分析表明，我们的策略可以赋予 LLM 超越固定深度 Transformer 的表达能力。实验表明，我们提出的方法在受到中间错误和欺骗性内容困扰的任务中（例如大整数乘法、幻觉检测和错误信息检测）可以比经典的提示策略获得更好的性能。

太长不看版：我们发现在应用 LLM 处理较长的问题输入时，把输入拆分然后分而治之可以取得更好的效果。我们从理论上解释了这一现象并实验角度进行了验证。

研究动机

本文的研究动机来自于实验中观察到的有趣现象。具体来说，我们发现对于涉及重复子任务和 / 或含有欺骗性内容的任务（如段落级别长度的虚假新闻检测），对输入进行拆分可以提升模型对于错误信息的分辨能力。下图展示了一个具体的例子。

在这个例子当中，我们调用大语言模型来评估一段总结性文本是否与完整的新闻报道存在事实性冲突。

在这个任务中，我们尝试了两种策略：耦合策略和分治策略。在耦合策略下，我们直接为模型提供完整的新闻报道和整段总结性文本，然后要求模型评估二者是否存在冲突。模型错误地认为二者不存在冲突，并且忽视了我们标红的冲突点（新闻中明确表示调查人员否定了录像的存在，然而总结中的第一句话表示录像已被成功复原）。

而当我们采取分治策略，也就是简单地将总结性文本拆分成多句话，然后分别对每句话进行评估，模型成功地识别出了冲突。

这个例子向我们展示了：对长输入进行划分可以帮助我们更好地解锁模型的能力。基于这一点，我们提出利用分治程序来引导 LLM，从而赋予模型更强的分辨力。

基于分治的提示（prompting）策略

我们提出使用分治（Divide-and-Conquer, DaC）程序来引导 LLM。该程序包括三个不同的子过程：子问题划分、子问题求解以及子解答合并。

在子问题划分，我们提示 LLM 将任务分解为一系列具有较小规模的并行同质子任务（例如将长段落分解为句子）。这里的并行原则保证模型可以分别处理这些子任务而不依赖于某些特定的求解顺序。也因此，一个子任务的解答不会依赖于其它子任务的解答的正确性，这增强了模型对于中间错误的鲁棒性，使模型获得更强的分辨力。

之后，在子问题求解阶段，我们提示 LLM 分别求解每个子任务。

最后，在子解答合并阶段，我们提示 LLM 将每个子任务的答案组合起来并获得最终答案。在这个过程中，所有三个阶段的推理过程都被隔离开来以避免干扰。它们都由一个程序而不是 LLM 来引导，以避免幻觉或来自输入上下文的欺骗。

在下面的示意图中，我们将自己的方法和目前流行的提示策略进行了对比。

为了解决不同规模的任务，我们提出了两种变体：单级分治策略 (Single-Level Divide-and-Conquer) 和多级分治策略 (Multi-Level Divide-and-Conquer)。单级策略中，我们只对输入进行一次划分，然后就开始进行求解。在多级策略中，我们可以递归调用分治程序，从而把求解过程展开成一棵多层的树。

理论分析

我们通过理论分析展示了为什么分治策略能够提升大语言模型的分辨力。

此前的工作（Feng et al 2023, Merrill & Sabharwal 2023）已经证明，现有的通用大语言模型所普遍采用的固定深度与对数精度的预训练 Transformer，存在表达能力上的限制。

具体来说，假设 NC1 类问题严格难于 TC0 类时（TC0 和 NC1 是并行计算理论中的两大类问题，其关系类似 P 与 NP），那么这些 Transformer 模型在处理 NC1 完全问题时，其模型宽度需要以超多项式（如指数）级别的速度随问题规模增长。NC1 完全问题包含了很多常见的问题，比如两色 2 叉子树匹配问题。

而我们此前提到的评估两段文本是否存在事实性冲突的问题，恰好可以被视为判断总结文本所对应的语义树是否匹配新闻材料的语义树的一棵子树。因此，当总结性文本足够长时，大语言模型会面临表达能力不足的问题。我们的理论分析严格证明了，在基于分治的提示策略下，存在一个宽度和深度均为常数的 Transformer，可以在 log（n）的时间复杂度下解决任意规模的两色 2 叉子树匹配问题

实验结果

我们考虑了三个任务：大整数乘法、幻觉检测、新闻验证。我们基于 GPT-3.5-Turbo 和 GPT-4 进行评估。对于大整数乘法，此前的工作已经证明，ChatGPT 难以正确计算 4 位以上的整数乘法问题。因此我们使用 5 位乘 5 位的乘法来验证我们的提示策略的有效性。

结果如下图所示，可以看出，无论是准确率指标还是编辑距离指标，我们的方法相对其他 baseline 都具有明显优势。

对于幻觉检测，我们采用 HaluEval 数据集中的 Summarization Hallucination Detection 子集。对于该子集，模型需要根据一段新闻材料判断一段总结性文本是否包含幻觉。我们将总结性文本划分为单句并分别进行检测。

检测结果如下，可以看到，我们的方法相对 baseline 更好的平衡了精确度和召回率，从而取得了更好的准确率和 F1 score。

对于新闻验证，我们基于 SciFact 数据集构造了一个段落验证数据集。对于该数据集，模型需要根据一篇学术论文中的段落判断一段新闻报道是真新闻还是假新闻。我们将新闻报道划分为单句并分别进行检测。

检测结果如下，可以看到，我们的方法相对 baseline 取得了更好的准确率和 G-Mean score。

引用

Merrill, W. and Sabharwal, A. The parallelism tradeoff: Limitations of log-precision transformers. Transactions of the Association for Computational Linguistics.

Feng, Guhao, et al. "Towards revealing the mystery behind chain of thought: a theoretical perspective." Advances in Neural Information Processing Systems 36 (2024).

Tags：大模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

AI程序员上岗垂类大模型应用迎来井喷期

能自动写代码的“AI员工”、逐渐告别不够好用的智能客服，无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业，IT、工业生产、金融、服务...【详细内容】

2024-04-08　　Search: 大模型点击:(3)　　评论:(0)　　加入收藏

AI程序员上岗垂类大模型应用迎来井喷期

2024-04-07　　Search: 大模型点击:(2)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

大模型Kimi火了，长文本“卷”出新高度

近日，AI智能助手Kimi宣布支持200万字无损上下文，在长上下文窗口技术上再次取得突破，引燃人工智能领域新一轮投资热情。　　摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo，支持1...【详细内容】

2024-03-29　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

大模型应用的 10 种架构模式

作者 | 曹洪伟在塑造新领域的过程中，我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说，已经司空见惯，设计模式已成为程序员们的重...【详细内容】

2024-03-27　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

超长文本是AI大模型的能力突破口吗？

◎记者刘怡鹤近日，能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为，国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】

2024-03-26　　Search: 大模型点击:(8)　　评论:(0)　　加入收藏

百度AI“咬”了一口苹果大模型商用有戏了？

百度3月25日突传利好。据知情人士透露，百度将为苹果今年发布的iPhone16、Mac系统和ios18提供AI功能。消息人士称，苹果曾与阿里以及另外一家国产大模型公司进行过洽谈，最后确定...【详细内容】

2024-03-26　　Search: 大模型点击:(17)　　评论:(0)　　加入收藏

Kimi引燃大模型“长文本竞赛”，阿里360百度急出手

从ChapGPT到Sora，从数千亿参数到千万长文本，大模型浪潮下，永远不缺热点。近日，“Kimi概念股暴涨”“Kimi为宕机道歉”等词条先后冲上微博热搜，让月之暗面这家刚成立一年的人工智...【详细内容】

2024-03-25　　Search: 大模型点击:(15)　　评论:(0)　　加入收藏

Kimi爆了国产大模型应用元年还远吗？

国产大模型应用Kimi近日可谓横空出世。根据Similarweb数据，Kimi智能助手的周度访问量由23年12月初的15万提升至近期（3.10-3.16）的超过200万，APP端下载量也快速提升，从2月初的效率...【详细内容】

2024-03-22　　Search: 大模型点击:(14)　　评论:(0)　　加入收藏

国产大模型开卷“比谁长”？Kimi爆火点燃长文本竞争赛道

来源：财联社近日，又一现象级AI应用Kimi爆火出圈，在用户端和资本市场都掀起波澜，引发多个Kimi相关概念股异常波动。海天瑞声（688787.SH）、中广天择（603721.SH）等上市公司纷纷回应“无...【详细内容】

2024-03-22　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

▌简易百科推荐

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(2)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(2)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

2024-04-03　　　　第一财经网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　品谈教师帮　　　　Tags:人工智能　点击:(6)　　评论:(0)　　加入收藏

AI世界的新难题：互联网的信息不够用了！

高质量数据的紧缺正成为AI发展的重要障碍。4月1日，据媒体报道，随着OpenAI、Google等企业不断深入发展AI技术，科技巨头们遇到了一个新问题：现有的互联网信息量可能不足以支撑他们...【详细内容】

2024-04-02　　硬AI　　　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

今天起，ChatGPT无需注册就能用了！

　来源：量子位　　　　金磊克雷西发自凹非寺　　就在刚刚，OpenAI狠狠地open了一把：从今天起，ChatGPT打开即用，无需再注册帐号和登录了！　　像这样，直接登录网站，然后就可以开启对...【详细内容】

2024-04-02　　　　量子位　　　Tags:ChatGPT 　点击:(7)　　评论:(0)　　加入收藏

AI时代，面对死亡有了第二种选择？

今年春节期间，罗佩玺瞒着妈妈用AI技术“复活”了外婆，她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年，妈妈和外婆终于又“见面”了，这是她送给妈妈的生日礼物。收...【详细内容】

2024-04-02　　　　中国青年报　　Tags:AI时代　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版