您当前的位置:首页 > 电脑百科 > 人工智能

普通文档也能变对话:深入理解对话补全技术

时间:2023-07-28 21:04:53  来源:今日头条  作者:MobotStone


当我们提到对话机器人,你是否也会像我一样立刻想起与Siri或者Alexa的一次次对话,虽然它们有时候可能会让你啼笑皆非,但也无可否认它们确实为我们的生活带来了很大便利。然而,训练这样的对话AI,其难点在于如何获取高质量的对话数据。过去我们通常需要收集大量的人类对话作为训练数据,这既费时又费力。那么,有没有更好的方法呢?

偶然想起去年阅读的一篇论文,介绍了一种对话补全的方案,非常有趣。今天就向大家介绍一种全新的方法——对话补全,它能帮我们把普通的文档转变成聊天记录。让我们一起探索这个颠覆传统的技术,看看它如何打破界限,让任何一篇文档都能“说话”。

首先,让我们看一下“对话补全”(inpainting)这个词。它其实是从图像处理那块借用过来的,原意是指用周围的像素信息来补全图片中缺失或者损坏的部分。而在这篇论文里,我们可以理解为用已有的对话内容来推测和补全对话中缺失的部分。就好像我们在看一幅画时,如果画中有一部分缺失,我们就会想象这部分应该是什么样的,以使画看上去更完整。在对话补全中,我们也是这样,利用已有的对话内容来猜测缺失的部分,让整个对话听起来更流畅、更完整。

下面我们来看看这个论文是怎么讲的。

简介

对话机器人需要大量的优质对话来进行训练,但这种数据往往不太好找。因此,论文作者想出了一种新的方法,叫做"对话补全",就是把普通的文章改编成像我们日常聊天一样的对话。这样一来,我们就能从各种各样的文章中获取大量的对话内容了。具体来说,就是把文章的每一句话看作一个人的发言,然后机器人就要猜测另一个人可能的回答或者提问。

训练的部分

对话补全器(inpainting)使用的是一种叫做T5的生成模型,这是一种编码器-解码器的模型。这个模型的训练方法跟我们之前见过的BERT模型有点类似,只不过有一个关键的不同:BERT是在句子中遮蔽单个的词语来训练模型,而在这里,我们是遮蔽掉整个发言来训练模型。

举个例子,考虑以下对话:

讲话者1:“你好,你怎么样?” 
讲话者2:“我很好,谢谢你。你呢?” 
讲话者1:“我也很好,谢谢你的关心。”

在对话补全任务中,可能会遮蔽一个完整的发言,像这样:

讲话者1:“你好,你怎么样?” 
讲话者2:? 
讲话者1:“我也很好,谢谢你的关心。”

模型的任务就是预测缺失的发言(在这个例子中,“我很好,谢谢你。你呢?”)。用于训练的损失函数是标准的交叉熵损失,它的目标是最小化原始发言在部分对话给出的情况下的负对数概率。

推理阶段

在推理阶段,训练好的补全模型被用来将一篇文章转化为对话。假设我们有一篇这样的文章:

“猫是小型的食肉哺乳动物。”
“它们经常被当作宠物。” 
“猫有强壮的柔韧体骼,反应快,爪子锐利且可以伸缩。”

这篇文章被视作在一个假设的对话中,作者的一系列发言。这个对话最初看起来像这样:

作者:“猫是小型的食肉哺乳动物。” 
读者:? 
作者:“它们经常被当作宠物。”
读者:?
作者:“猫有强壮的柔韧体骼,反应快,爪子锐利且可以伸缩。” 
读者:?

问号代表对话中缺失的部分,这就是对话补全模型设计的目的,去填补这些缺失的部分。用了对话补全模型后,对话可能会变成这样:

作者:“猫是小型的食肉哺乳动物。” 
读者:“猫一般常在哪些地方出没呢?” 
作者:“它们经常被当作宠物。” 
读者:“猫有哪些特殊的身体特征呢?” 
作者:“猫有强壮的柔韧体骼,反应快,爪子锐利且可以伸缩。” 
读者:“真有意思,你能再多介绍一些关于猫的行为习性吗?”

文章和对话的例子

再让我们看另一篇文章:

“大象是大型哺乳动物。” 
“它们有长长的鼻子。” 
“大象是食草动物。” 

用了对话补全模型后,对话可能会变成这样:

作者:“大象是大型哺乳动物。” 
读者:“大象有哪些独特的特征呢?” 
作者:“它们有长长的鼻子。” 
读者:“大象平时都吃些什么?” 
作者:“大象是食草动物。” 
读者:“真有趣,你能告诉我更多关于大象的栖息地信息吗?”

总结

"对话补全"就像是给聊天记录中的空白部分填充内容。它可以帮我们把普通的文章变成像人们日常对话一样的聊天记录。这对于训练聊天机器人来说是个好方法,因为它能提供大量丰富、真实的对话内容。所以,这个技术可能会给聊天机器人的发展带来很大的帮助。



Tags:对话补全   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
普通文档也能变对话:深入理解对话补全技术
当我们提到对话机器人,你是否也会像我一样立刻想起与Siri或者Alexa的一次次对话,虽然它们有时候可能会让你啼笑皆非,但也无可否认它们确实为我们的生活带来了很大便利。然而,训...【详细内容】
2023-07-28  Search: 对话补全  点击:(196)  评论:(0)  加入收藏
▌简易百科推荐
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(1)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(1)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(1)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(2)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(2)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(5)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
相关文章
    无相关信息
站内最新
站内热门
站内头条