您当前的位置:首页 > 电脑百科 > 人工智能

Dynalang——一种使用语言学习世界模型的AI新技术

时间:2023-08-21 12:36:07  来源:51CTO  作者:

译者 | 朱先忠

审校 | 重楼

简介

这篇文章是我们对人工智能最新研究报道的一部分。

人工智能梦寐以求的目标之一是创造出能够通过遵循自然语言指令在现实世界中有效完成任务的智能体。大型语言模型(LLM)在实现这一目标方面取得了重大进展,展示了处理定义明确的任务的令人印象深刻的能力。然而,它们的能力目前还是有限的——在面临需要更广泛了解世界的任务时往往达不到要求。

加州大学伯克利分校科学家的一篇新研究论文提出了应对这一挑战的创新方法。本文介绍了一种名为Dynalang的新技术,旨在设计能够借助自然语言学习世界模型的强化学习代理。这种方法不仅仅是教人工智能执行任务;而且还使得人工智能能够理解其所在环境的上下文,并更有力、更高效地执行任务。

物理世界中的大型语言模型

PaLM-SayCan使用大型语言模型(LLM)使机器人能够用自然语言执行指令(来源:谷歌博客,地址:https://AI.googleblog.com/2023/02/google-research-2022-beyond-robotics.html)。

LLM的最新进展在各个领域引发了一波热潮,包括机器人和现实世界中的任务执行代理。LLM的一个非常有前景的方面是它们能够弥合语言和视觉数据之间的差距,从而产生视觉语言模型(VLM)。

VLM能够将文本映射到视觉数据;反之亦然,这一功能已在不同的应用领域中得到利用,包括文本到图像模型和AI图像搜索领域。这项技术的一个更先进的应用是将自然语言命令映射到现实世界中的动作。这有时被称为“具身语言模型”(Embodied Language Models)。

如今,已经出现一些技术,其将强化学习与VLM相结合,以训练能够执行特定指令的代理。

然而,当前的模型有它们明显的局限性,例如,它们擅长执行非常特定的任务的命令,例如“拿起蓝盒子”。不过,最近的进一步研究成果能够为这些命令添加上一层抽象,使VLM驱动的代理能够理解和执行更复杂的指令,例如“捡起代表灭绝动物的玩具”。

但在现实世界中,命令和话语往往与上下文有关。例如,如果是洗碗或上菜,“我把碗收起来了”这句话对代理来说可能意味着不同的事情。加州大学伯克利分校的研究人员指出,“当语言不谈论任务时,它只与代理应该采取的最佳行动弱相关。”

最近,研究人员提出了一种不同的方法。他们建议,与其训练代理立即完成任务,不如先训练他们在语言指令的帮助下学习世界模型来预测未来。研究人员写道:“与下一个表征预测如何允许语言模型形成世界知识的内部表征类似,我们假设预测未来表征为主体理解语言及其与世界的关系提供了丰富的学习信号。”

这种方法可以帮助人工智能代理了解其环境的上下文,从而更有力、更高效地执行任务。

Dynalang

Dynalang使用语言更好地学习世界模型(来源:GitHub)Dynalang使用语言更好地学习世界模型(来源:Github

加州大学伯克利分校的研究人员提出了一种名为Dynalang的技术,他们将其描述为“一种从在线体验中学习语言和图像世界模型并使用该模型学习如何行动的代理。”这项技术的方法独特,并提供了两种不同的训练模式。

首先,Dynalang学习通过文本和视觉观察来对世界进行建模。研究人员解释说,“我们训练世界模型,当代理在环境中行动时,利用在线收集的经验来预测未来的潜在表征。”这种方法反映了人类用来将环境中的观察结果映射到语言的一种自我监督学习形式。研究人员称之为“语言条件世界模型”。值得注意的是,Dynalang是多模态的,这意味着它不仅预测文本,还支持预测未来的视觉表现。

其次,Dynalang通过对世界模型和任务表征的强化学习来学习其行动策略。研究人员写道:“我们训练政策采取行动,最大限度地提高任务回报,将世界模型的潜在代表性作为输入。”。

从本质上讲,Dynalang旨在通过语言和视觉观察来学习一个世界模型,然后使用这个模型来学习如何在各种环境中有效地行动。这种方法可能会在不同的环境中增强人工智能代理的稳健性和效率。

Dynalang的工作原理

加州大学伯克利分校的研究人员利用不同机器学习技术的巧妙组合开发了Dynalang。Dynalang的核心是一个旨在执行动作的人工智能系统,其结构基于强化学习循环。这个循环由代理、环境、操作、状态和奖励组成。Dynalang的根本目标是培养一个能够最大限度地提高回报的代理。

Dynalang是一个基于模型的强化学习系统,这意味着它可以根据世界模型预测动作和状态。同时,使用过去动作的回放缓冲区作为监督学习流来训练世界模型。根据环境的不同,动作空间可以由电机命令、文本生成和其他类型的动作组成。

Dynalang的一个有趣的特性是,它能够以令牌流形式接收文本指令和描述,同时还可以一起传递图像帧信息。这与在一组任务的开头提供完整的指令文本的其他技术形成了鲜明对比。研究人员解释道,“对于人类来说,阅读、听力和口语会随着时间的推移而延长,在此期间,我们会接收新的视觉输入,并可以执行运动动作。类似地,我们在每个时间步长为我们的代理提供一个视频帧和一个语言令牌,代理产生一个运动动作,在适用的环境中,每个时间步长产生一个语言标记。”

与语言模型的许多应用程序一样,Dynalang可以在原始数据(文本和图像)上进行预训练,在那里它可以学习每个模型的潜在表示。然后,它可以在较小的传感器和动作数据集上进行微调。然而,正如研究人员所指出的,有一点需要注意:“与典型的语言建模目标不同,该模型没有明确地训练为从前缀预测下一个令牌,除非通过在下一时间步长时的预测表示。”

Dynalang的效果如何?

Dynalang支持在不同类型的环境中工作——使用语言提示和指令来更好地学习世界模型(来源:GitHub)。

Dynalang的研究论文目前尚未正式印刷出版,这意味着它还没有经过严格的同行评审。然而,该论文的作者包括人工智能研究领域备受尊敬的人物,例如伯克利机器人学习实验室主任兼伯克利人工智能研究实验室联合主任Pieter Abeel。这为论文中的成果发现提供了一定程度的可信度。

研究人员让Dynalang在各种环境中进行测试,每种环境都有独特的设置和挑战。在可能的情况下,他们将Dynalang的性能与在相同环境中运行的基线强化学习模型进行了比较。

HomeGrid就是这样一个环境,它是一个多任务网格世界,代理在其中接收语言形式的任务规范以及语言提示,这些提示包括对对象的描述,环境中的动力信息以及相关动作的纠正。

研究人员指出,“值得注意的是,代理在HomeGrid中从未接受过关于提示含义的直接监督,而且提示通常与他们所指的对象或观察结果相去甚远。”这意味着,代理必须通过将提示与世界模型观察到的状态相关联来学习提示的含义。实验表明,Dynalang善于利用这些提示,而RL模型则必须通过试错来学习动作分布。

在另一个环境VLN-CE(Vision-and-Language Navigation in Continuous Environments:连续环境中的视觉和语言导航)中,需要代理在3D环境中导航以到达指定的目的地。每一组任务都包括一个环境和自然语言说明,说明如何到达目的地。

实验表明,Dynalang在实现目标方面明显比纯RL方法更有效,因为它学会了将文本指令与环境观察和行动联系起来。

然而,作者警告说,“[Dynalang]还不能与最先进的VLN方法(其中许多方法使用专家演示或专业架构)竞争。”这意味着,虽然Dynalang不如SOTA技术有效,但它也需要更少的手动注释,并且可以从接近原始的数据中学习。

本论文还探讨了另外两个有趣的环境:Messenger游戏环境和LangRoom包含的问答挑战。如果您要想详细分析Dynalang在这些环境中的表现,我建议阅读全文。

本论文的一个关键发现是,在纯文本数据集上对模型进行预训练可以显著提高模型在最终任务中的性能。这表明,模型从文本中学习的能力是其整体有效性的关键因素。

然而,研究人员承认,Dynalang还有相当大的改进空间。他们认为,更好的语言建模技术和架构能够支持长期的操作,可以提高模型的性能。我个人很感兴趣的是,如果它与更先进的转换器模型相结合的话它将如何改进。

此外,这些技术在现实世界中的表现如何还有待观察,而现实世界往往比受控环境更不可预测和复杂。但研究人员对Dynalang的潜力持乐观态度,尤其是在利用网上大量未标记数据方面。研究人员写道,“在没有动作或奖励的情况下对视频和文本进行预训练的能力表明,Dynalang可以扩展到大型网络数据集,为实现与世界上的人类交互的自我改进的多模式代理铺平了道路。”

译者介绍

朱先忠,51CTO社区编辑,51CTO专家博客、讲师,潍坊一所高校计算机教师,自由编程界老兵一枚。

原文标题:New AI technique uses language to learn world models,作者:Ben Dickson



Tags:Dynalang   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
Dynalang——一种使用语言学习世界模型的AI新技术
译者 | 朱先忠审校 | 重楼简介这篇文章是我们对人工智能最新研究报道的一部分。人工智能梦寐以求的目标之一是创造出能够通过遵循自然语言指令在现实世界中有效完成任务的智...【详细内容】
2023-08-21  Search: Dynalang  点击:(307)  评论:(0)  加入收藏
▌简易百科推荐
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(1)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(1)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(1)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(2)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(2)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(5)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
相关文章
    无相关信息
站内最新
站内热门
站内头条