您当前的位置:首页 > 新闻资讯 > 科技

RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平

时间:2023-09-05 17:19:31  来源:新智元  作者:

新智元报道

编辑:编辑部

【新智元导读】ChatGPT横空出世后,RLHF成为研究人员关注的焦点。谷歌最新研究提出,不用人类标注,AI标注偏好后,也能取得与RLHF一样的效果。

如果说,RLHF中的「人类」被取代,可行吗?

谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。

论文地址:https://arxiv.org/abs/2309.00267

结果发现,RLAIF可以在不依赖人类标注员的情况下,产生与RLHF相当的改进效果,胜率50%。

同时,谷歌研究再次证明了RLAIF和RLHF,比起监督微调(SFT)胜率都超过了70%。

如今,大型语言模型训练中一个关键部分便是RLHF。人类通过对AI输出的质量进行评级,让回应更加有用。

但是,这需要付出很多的努力,包括让许多标注人员暴露在AI输出的有害内容中。

既然RLAIF能够与RLHF相媲美,未来模型不需要人类反馈,也可以通过自循环来改进。

RLHF不需要人类了

当前,RLHF已经成为微调大模型的核心方法,包括ChatGPT、Bard等模型都采用这一范式。

具体来说,RLHF分为三步:预训练一个监督微调LLM;收集数据训练一个奖励模型;用RL微调模型。

有了RLHF,大模型可以针对复杂的序列级目标进行优化,而传统的SFT很难区分这些目标。

然而,一个非常现实的问题是,RLHF需要大规模高质量的人类标注数据,另外这些数据能否可以取得一个优胜的结果。

在谷歌这项研究之前,Anthropic研究人员是第一个探索使用AI偏好来训练RL微调的奖励模型。

他们首次在「Constitutional AI」中提出了RLAIF,发现LLM与人类判断表现出高度一致,甚至在某些任务上,表现优于人类。

但是,这篇研究没有将人类与人工智能反馈做对比,因此,RLAIF是否可以替代RLHF尚未得到终极答案。

谷歌最新研究,主要就是解决这个问题。

研究人员在模型摘要任务中,直接比较了RLAIF和RLHF。

给定1个文本和2个候选答案,使用现成的LLM给出一个偏好标注。

然后,根据LLM偏好和对比损失训练奖励模型(RM)。最后,通过强化学习微调策略模型,利用奖励模型给出奖励。

那么,谷歌与Anthropic提出的RLAIF方法有什么不同?

谷歌自己在文中解释道,

- 谷歌:根据AI标注的偏好训练奖励模型,然后进行RL微调。

- Constitutional AI:通过迭代,要求LLM根据宪法生成更好的响应,来改进监督学习模型。

AI自标注,自我改进

谷歌在最新研究中提出的RLAIF方法,过程是怎样的?

大语言模型进行偏好标注

研究人员用「现成的」LLM来标注对两个候选项之间的偏好。

这是一个针对一般用途进行预训练或指令调整的模型,但未针对特定下游任务进行微调。给定一段文本和两个候选摘要,LLM被要求评价哪个摘要更好。LLM 的输入结构如下:

1. 序言

介绍和描述手头任务的说明

2. 多个样本实例(可选)

一段文本、一对摘要、思路的基本原理和偏好判断

3.要标注的样本

一段文本和一对要标注的摘要

4.结尾

提示 LLM 的结束字符串(例如「Preferred Summary=」)

在给LLM提供输入后,研究人员获得生成token「1」和「2」的对数概率,并计算softmax以获得偏好分布。

从LLM获取偏好标注的方法有很多,例如从模型中解码自由形式的响应并启发式地提取偏好(例如:output=「the first summary is better」),或者将偏好分布表示为单热表示(one-hot representation)。然而,研究人员没有尝试这些替代方案,因为他们的方法已经产生了很高的准确性。

研究人员试验了两种类型的序言:第一种是「Base」,它简单地询问「哪个摘要更好?」,第二种是「OpenAI」,它模仿了生成OpenAI TL;DR 偏好数据集的人类偏好标注器的评级指令,包含有关构成强摘要的详细信息。如下图所示。

研究人员还通过在提示中添加少量样本来尝试上下文学习,其中手动选择样本来涵盖不同的主题。解决位置偏差。

之前的研究结果表明,向LLM展示候选项的顺序可能会影响LLM判断更喜欢的候选项。研究人员发现证据表明存在这种位置偏差,尤其是对于较小尺寸的标注LLM 。

为了减轻偏好标注中的位置偏差,研究人员对每对候选项进行两次推理,候选项提交给LLM的顺序二次推理是相反的。然后对两个推推理的结果进行平均以获得最终的偏好分布。

思维链推理

研究人员尝试从AI标注器中引出思维链 (COT) 推理,以提高与人类偏好的一致性。

研究人员替换标准的结尾提示(例如将「Preferred Summary=」替换为「Consider the coherence, accuracy, coverage, and over-all quality of each summary and explain which one is better. Rationale:」),然后解码一个LLM的回复。

最后,研究人员将原始提示、响应和原始结尾字符串“Preferred Summary=”连接在一起,并按照第 3.1 节中的评分过程来获得偏好分布。具体过程见下图。

在零样本提示中,LLM没有给出推理应该是什么样子的示例,而在少量样本提示中,研究人员提供了模型要遵循的COT推理示例。示例请参见下图。

自洽性(Self-Consistency)

对于思维链提示,研究人员还尝试了自洽性——一种通过对多个推理路径进行采样并聚合每个路径末尾产生的最终答案来改进思维链推理的技术。

使用非零解码温度(non-zero decoding temperature)对多个思维链基本原理进行采样,然后按照上一节中的方法获得每个思维链的LLM偏好分布。然后对结果进行平均以获得最终的偏好分布。

AI反馈的强化学习

在LLM对偏好进行标注后,将训练奖励模型(RM)来预测偏好。由于研究人员的方法产生软标注(Soft Label),他们采用RM生成的奖励分数的softmax的交叉熵损失(cross-entropy loss),而不是奖励模型中提到的损失。

Softmax将RM的无界分数(unbounded scores)转换为概率分布。

在AI标注数据集上训练RM可以被视为模型蒸馏的一种形式,特别是因为研究人员的AI标注器通常比RM更大、更强。

另一种方法是绕过RM并直接使用AI反馈作为RL中的奖励信号,尽管这种方法的计算成本更高,因为AI标注器比RM更大。

通过经过训练的RM,研究人员使用适用于语言建模领域的Advantage Actor Critic (A2C)算法的修改版本进行强化学习。

评价

研究人员通过三个指标评估他们的结果 - AI标注器对齐、配对准确度和胜率。

AI标注器对齐时用来衡量AI标注偏好相对于人类偏好的准确性。

对于单个示例,将软人工智能标注的偏好转换为二进制表示。如果标注与目标人类偏好一致则分配 1,否则分配 0。

配对准确性是衡量经过训练的奖励模型相对于一组保留的人类偏好的准确性。

给定共享上下文和一对候选响应,如果根据人类标注,RM对首选候选的评分高于非首选候选,则配对准确度为 1。否则该值为 0。该数量是多个示例的平均值,以衡量RM的总体精度。

胜率通过衡量人类更喜欢一项策略频率来评估两项策略的端到端质量。

给定一个输入和两次生成结果,人类标注者选择首选哪一个生成结果。策略A优于策略B的实例百分比称为「A对B的胜率」。

实验细节

研究人员使用由OpenAI管理的经过过滤的Reddit TL;DR 数据集。TL;DR包含来自Reddit的约300万个帖子,涉及各种主题(也称为「subreddits」)以及原作者撰写的帖子摘要。

数据还经过OpenAI过滤,以确保高质量,其中包括使用普通大众可以理解的Reddit主题白名单。

此外,仅包含摘要中含有24到48个标注的帖子。过滤后的数据集包含123,169个帖子,其中约5%作为验证集。

有关数据集的更多详细信息可以在原始论文中找到。此外, OpenAI从过滤后的TL;DR数据集中整理了一个人类偏好数据集。

对于给定的帖子,根据不同的策略生成两个候选摘要,并要求标注器对他们喜欢的摘要进行评分。总数据集包含大约92k成对比较。

LLM标注

为了评估AI标注技术的有效性(例如提示、自洽性),研究人员从TL;DR偏好数据集中选择示例,其中人类标注者会偏好置信度更高的摘要。

研究人员在数据集训练分割的随机15%子集上评估AI标注器对齐,以实现更快的实验迭代,生成2851个评估示例。

对于奖励模型训练,TL;DR偏好数据集的完整训练分割由LLM标注并用于训练,无论置信度分数如何。

模型训练

研究人员使用PaLM 2 Extra-Small (XS)作为初始检查点,在OpenAI过滤后的TL;DR数据集上训练SFT模型。

然后,研究人员从SFT模型初始化RM,并在OpenAI的TL;DR人类偏好数据集上训练它们。

对于表1和5.1中的结果,研究人员使用PaLM 2L生成AI标注的偏好,使用「OpenAI + COT 0-shot」提示(,没有自洽性,然后在完整的偏好上训练RM数据集。

对于强化学习,研究人员使用Advantage Actor Critic (A2C)来训练策略。策略和价值模型都是从SFT模型初始化的。研究人员使用过滤后的 Reddit TL;DR 数据集作为初始状态来推出他们的策略。

人类评估

研究人员收集了1200个人类评级来评估RLHF和RLAIF策略。对于每项评级任务,评估人员都会收到一篇帖子和4个根据不同策略(RLAIF、RLHF、SFT和人类参考各一个)生成的摘要,并要求按照质量顺序对它们进行排名,不存在任何联系。

帖子取自TL;DR监督微调数据集的保留集,该数据集未用于任何其他评估。一旦收集了这些排名,就可以计算任意两项策略的胜率。

胜率50%,打平手

RLAIF vs. RLHF

文章开篇,已经介绍了谷歌将RLAIF与RLHF相比较的优势,结果表明,两种方法有着相似的性能。

具体来说,与基线SFT相比较,在71%的情况下,人类评估者更喜欢RLAIF。73%的情况下,RLHF优于SFT。

研究人员还直接比较了RLAIF和RLHF的胜率,发现它们受欢迎程度是等同的——即胜率都是50%。

为了进一步了解这两种策略的差异,谷歌对其生成的摘要进行了定性比较。

另外,他们还将RLAIF和RLHF摘要与人工编写的参考摘要进行比较。79%的情况下,RLAIF生成的摘要优于参考摘要,80%的情况下,RLHF结果优于参考摘要。

可见,RLAIF和RLHF与参考摘要之间的胜率只差1%,并没有显著的差异。

值得注意的是,研究人员还发现,RLHF策略出现幻觉的频率,往往高于RLAIF,如上表红色标注的文字。

在控制摘要长度后,RLAIF和RLHF策略仍然优于基线SFT,并取得了相似的胜率。

这些结果表明,RLAIF不需要依赖于人工标注,是RLHF的可行替代方案。

提示技巧

在使用提示技巧中,谷歌团队尝试了三种类型的提示技术,preamble specificity、CoT、少样本上下文学习。

结果发现,通过详细的OpenAI序言进行提示,并进行CoT推理,AI标注器可以取得78%的一致性。

而情境学习不会提高准确性,甚至可能会使准确性变得更糟。

自洽性

研究人员使用4和16个样本进行自洽性实验,解码温度为1。

以T = 1对多个思维链原理进行采样,结果与人类偏好的一致性较低。

大模型标注器的规模

研究还发现,扩大大模型标注器的参数规模,可能会产生更高质量的偏好标注。

偏好示例数量

奖励模型的准确性如何随训练示例进行变化?

研究人员发现,需要经过数千个示例训练后,奖励模型的性能接近于完整数据集的训练。

结论

研究人员证明了RLAIF可以在不依赖人类标注者的情况下产生与RLHF相当的改进。

虽然这项工作凸显了 RLAIF 的潜力,但依然有一些局限性。

首先,这项研究仅探讨了总结任务,关于其他任务的泛化性还需要进一步研究。

其次,研究人员没有估计LLM推理在经济成本上是否比人工标注更有优势。

此外,还有一些有趣的问题值得研究,例如RLHF与RLAIF相结合是否可以优于单一的一种方法,使用LLM直接分配奖励的效果如何,改进 AI标注器对齐是否会转化为改进的最终策略,以及是否使用LLM与策略模型大小相同的标注器可以进一步改进策略(即模型是否可以「自我改进」)。

网友热议

谷歌发表了两篇关于RL的论文:

1. RLAIF:训练与人类反馈类似的奖励模型

2. ReST:使用生成模型促进自训练 将这两篇论文结合起来,可以满足那些对数据饥渴的人工智能算法

半个月前,谷歌DeepMind刚刚提出了一个新算法ReST,为了使大规模语言模型与人类偏好保持一致。

具体通过离线强化学习方法,改进大型语言模型的翻译质量,以更好地符合人类偏好。

一位研究人员表示,根据定性测试,Anthropic的Claude模型似乎比GPT-4弱。这可能是RLHF/RLAIF方法或预训练造成的。目前还不清楚这些方法在实际应用中的泛化效果是否更好,即使它们在学术基准上的表现更好。

我不会说这降低了人工标注的重要性,但有一点可以肯定,人工智能反馈的RL可以降低成本。人工标注对于泛化仍然极其重要,而RLHF+RLAIF混合方法比任何单一方法都要好。

大部分网友认为论文是很大的突破,但也有网友觉得这和Anthropic在几个月前提出的Constitute Claude中的RLAIF似乎没有本质的区别。

参考资料:

https://arxiv.org/abs/2309.00267



Tags:RLHF   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
RLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级
新智元报道编辑:LRS【新智元导读】AI领域日新月异,RLHF也逐渐成为过时的技术,但新路线尚不明朗:应该采用无需人工的反馈,还是继续改进RLHF机制?在ChatGPT引领的大型语言模型时代,一...【详细内容】
2023-09-18  Search: RLHF  点击:(296)  评论:(0)  加入收藏
RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
新智元报道编辑:编辑部【新智元导读】ChatGPT横空出世后,RLHF成为研究人员关注的焦点。谷歌最新研究提出,不用人类标注,AI标注偏好后,也能取得与RLHF一样的效果。如果说,RLHF中的...【详细内容】
2023-09-05  Search: RLHF  点击:(80)  评论:(0)  加入收藏
ChatGPT背后RLHF算法能成功的5个原因
前面的几篇文章,作者深入探讨过RLHF 的算法原理,今天站在一定高度讨论,为什么需要RLHF 这么复杂的强化学习算法,为什么SL(监督学习) 不能达到这样一个效果?这篇文章就从Sebastian...【详细内容】
2023-08-31  Search: RLHF  点击:(277)  评论:(0)  加入收藏
详解大模型RLHF过程
一直都特别好奇大模型的强化学习微调是怎么做的,网上虽然相关文章不少,但找到的文章都是浅尝辄止说到用PPO训练,再细致深入的就没有讲了。。。只能自己看一看代码,以前搞过一点...【详细内容】
2023-08-23  Search: RLHF  点击:(287)  评论:(0)  加入收藏
解读ChatGPT中的RLHF
无论是 ChatGPT 还是 GPT-4,它们的核心技术机制之一都是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)。这是大型语言模型生成领域的新训练范式,即...【详细内容】
2023-05-07  Search: RLHF  点击:(301)  评论:(0)  加入收藏
谷歌复用30年前经典算法,CV引入强化学习,网友:视觉RLHF要来了?
ChatGPT 的火爆有目共睹,而对于支撑其成功背后的技术,监督式的指令微调以及基于人类反馈的强化学习至关重要。这些技术也在逐渐扩展到其他 AI 领域,包括计算机视觉(CV)。​我们知...【详细内容】
2023-02-27  Search: RLHF  点击:(143)  评论:(0)  加入收藏
▌简易百科推荐
谷歌推出适用于安卓设备的“查找我的设备”网络
IT之家 4 月 9 日消息,谷歌今日推出了适用于安卓设备的“查找我的设备”网络,其功能类似于苹果的“查找”网络,旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到,与苹果的“...【详细内容】
2024-04-09    IT之家  Tags:安卓   点击:(2)  评论:(0)  加入收藏
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
2026年的数据荒越来越近,硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天AI忽然吐出了我们的...【详细内容】
2024-04-09    新智元  Tags:硅谷   点击:(2)  评论:(0)  加入收藏
谷歌搜索史上最大变革!考虑对AI搜索收费
快科技4月7日消息,据国外媒体报道,谷歌正计划对由生成式人工智能驱动的新高级功能收费,这将是谷歌搜索业务历史上最大的一次变革。自2000年以来,谷歌的搜索产品一直依靠广告盈利...【详细内容】
2024-04-08    快科技  Tags:谷歌搜索   点击:(7)  评论:(0)  加入收藏
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08    环球网  Tags:AI   点击:(7)  评论:(0)  加入收藏
训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
全网真的无数据可用了!外媒报道称,OpenAl、Anthropic等公司正在努力寻找足够的信息,来训练下一代人工智能模型。前几天,OpenAI和微软被曝出正在联手打造超算「星际之门」,解决算...【详细内容】
2024-04-08    新智元  Tags:GPT-5   点击:(1)  评论:(0)  加入收藏
当“机器人”有了“AI大脑” 人形机器人时代来了吗
数智风向标当“机器人”有了“AI大脑”​人形机器人时代来了吗简单明了的口令下达后,机器人便开始搬箱子、运小球,在各类不同的地形行走……这些身上布满芯片和传...【详细内容】
2024-04-08    中国青年报  Tags:机器人   点击:(3)  评论:(0)  加入收藏
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07    IT之家  Tags:OpenAI   点击:(6)  评论:(0)  加入收藏
量子计算会和经典计算一样融入人们的日常生活
作为2024中国网络媒体论坛打造的创新活动之一,“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场,本源量子计算科技(合肥)股份有限公司(以下简称“...【详细内容】
2024-04-03    人民网  Tags:量子计算   点击:(8)  评论:(0)  加入收藏
ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
新智元报道编辑:编辑部【新智元导读】OpenAI这份愚人节礼物,实在是太大了:今天起,ChatGPT不用注册,可以直接使用。用户狂欢,竞品颤抖,我们仿佛已经听到,谷歌搜索引擎这位巨人轰然倒...【详细内容】
2024-04-02    新智元  Tags:ChatGPT   点击:(8)  评论:(0)  加入收藏
谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
IT之家 4 月 2 日消息,根据华尔街日报报道,谷歌为了结追溯到 2020 年的集体诉讼案,近日同意删除通过 Chrome 浏览器“无痕(Incognito)模式”下收集的用户数据。这起诉讼原告认为,...【详细内容】
2024-04-02    IT之家  Tags:Chrome   点击:(7)  评论:(0)  加入收藏
站内最新
栏目相关
  • · 谷歌推出适用于安卓设备的“查找我的设备”网络
  • · 你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · 为训练AI,OpenAI等科技巨头花式淘数据
  • · 训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
  • · 当“机器人”有了“AI大脑” 人形机器人时代来了吗
  • · 报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
  • · 量子计算会和经典计算一样融入人们的日常生活
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
  • · 哥伦比亚大学华人开发「人脸机器人」,照镜子自主模仿人类表情超逼真
  • · 谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录
  • · GPT商店热度不尽人意 仅用在写论文和炒股票上较受欢迎
  • · 距实现全球安全量子通信更近一步:量子点源产生近乎完美纠缠光子对
  • · 中国三大运营商共同发布通过GSMA Open Gateway认证的一次性密码 API
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · 国家数据局局长刘烈宏:充分发挥数据要素价值 培育新质生产力
  • · 谷歌Chrome巨变:第三方Cookie的终结将重塑互联网格局
  • · 百度+苹果,“AI手机元年”真的来了?
  • · 百度AI“咬”了一口苹果 大模型商用有戏了?
  • 站内热门
    相关头条
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
  • · 瘫痪8年小哥植入马斯克脑机接口,狂打8小时「文明6」!Neuralink首个人类植入者直播来了
  • · 英伟达“算力核弹”强在哪里?
  • · AI大模型之争远未落幕
  • · 世界首款!英伟达重磅发布人形机器人模型
  • · 全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场
  • · 真“Open ” AI?马斯克旗下大模型Grok宣布开源:参数量全球最大
  • · 全球首位AI程序员诞生 人类程序员会失业吗?
  • · 谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量
  • · 英伟达、微软等巨头“抱团”,AI有望助推6G时代到来 国内产业如何接招?
  • · OpenAI Sora已开放对外申请 网友爆料:可能还有其它重磅产品发布
  • · 周鸿祎再谈Sora:真正给人工智能补上了“眼睛”
  • · Sora爆火超100小时:美国狂“卷”算力,国内则卖 AI 课程“捞金”一年5000万|钛媒体AGI
  • · 爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
  • · “AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!
  • · 从居家到工作,CES 2024上演 AI硬件大秀
  • · OpenAI新年头号重磅!GPT Store上线,企业客户新品也来了
  • 站内头条