您当前的位置:首页 > 电脑百科 > 人工智能

LeCun再泼冷水:只会看书的语言模型永远无法实现「类人智能」

时间:2023-09-01 12:11:05  来源:新智元  作者:

自去年ChatGPT发布后,业内外都涌现出了一股对大型语言模型的狂热情绪,甚至有谷歌员工宣称公司内部的语言模型有了意识。

最近,纽约大学教授、Meta首席AI科学家、图灵奖得主Yann LeCun及纽约大学计算机科学系的博士后Jacob Browning发表了一篇长文,他们认为是语言本身的局限性让LLM的智能无法提升。

虽然语言模型变得越来越通用且强大,但我们却越来越不懂模型的思考过程。

模型可以在各个常识推理基准测试中取得非常高的准确率,但为什么还是会说废话、给出危险的建议呢?

也就是说,为什么语言模型如此聪明,能力却又如此有限?

研究人员认为,问题根本不是出在AI算法,而在于语言的局限性,一旦我们放弃「语言即思维」的假设,就会发现尽管LLM的表现出色,但它们永远无法达到接近人类的智慧程度。

语言模型到底是怎么回事?

在19世纪和20世纪的哲学和科学研究中,主流认知是「知识即语言学」,也就是说,知道某样只是意味着想到了正确的句子,并了解如何与已知的真实网络中的其他句子联系起来。

按照这种逻辑,语言的理想形式应该是一种纯粹形式化的、符合逻辑数学的形式,由任意的符号组成,依照严格的推理规则连接起来,但自然语言可能还需要语义消歧和不精确的。

奥地利哲学家Wittgenstein曾说过,真命题的总和就是自然科学的全部。

虽然在认知地图(cognitive maps)和心像(mental images)领域还存在争议,但20世纪确立的语言学基础就是符号主义。

这一观点到目前也被很多人接受:如果百科全书可以包含所有已知的内容,那只要把所有书都读一遍,那就可以对世界有一个全面了解。

人工智能的早期研究也遵循这个思想,定义符号操作,根据逻辑规则以不同方式将语言符号绑定在一起。

对于当时的研究人员来说,人工智能的知识都储存在一个由人工逻辑连接的真实句子组成的庞大数据库,如果人工智能系统在正确的时间吐出正确的句子,即能够以适当的方式进行符号操作的话,就可以认为是一个智能系统。

这一想法也是图灵测试的基础:如果一台机器可以在合适的时机把自己知道的内容说出去,就意味着它知道自己在说什么,以及何时运用自己的知识。

但反对者认为,一台机器可以聊天,并不意味着它可以理解谈论的具体内容,因为语言并不能穷尽知识,相反,语言只是一种高度具体的、非常有限的知识表征。

所有的语言,无论是编程语言、符号逻辑还是口语,都只是一种特定类型的表征模式,以极高的抽象级别表达离散的对象和属性以及彼此之间的关系。

不过,阅读乐谱和听音乐之间存在巨大的鸿沟,与演奏技巧之间的差异则更大。

语言表征更像是对某些具体信息的压缩,例如描述不规则的形状、物体的运动、复杂机制的功能等,其他非语言的表征也可以用一种可理解的方式来传达信息,如图像、录音、图表等。

语言的局限性

语言是一种带宽非常低的传输方式,如果脱离上下文的话,孤立的单词或句子能传达出的信息量非常少,并且由于同音异义词和代词的数量很多,许多句子的语义都非常模糊。

乔姆斯基(Chomsky )在几十年前就提出,语言并不是一种清晰且明确的沟通工具。

但人类并不需要一个完美的沟通工具,我们对一个句子的理解通常取决于句子出现的语境,从而推断出句子的表达含义。

在大多数情况下,我们都在讨论面前的事物,比如正在进行的足球比赛,或是面对某些特定的社会角色,比如跟服务员点餐,交流一些明确的目标。

在阅读一篇短文时,主要考察的是使用通用阅读理解策略来理解文本内容,但研究表明,儿童对某个主题的背景知识量实际上是影响理解的关键因素。

It is clear that these systems are doomed to a shallow understanding that will never Approximate the full-bodied thinking we see in humans.

很明显,AI系统注定只能肤浅地理解世界,永远不会接近人类所具有的全面思维。

单词和句子的固有上下文性质是了解LLM如何运行的关键。

神经网络通常将知识表示为know-how,即对上下文高度敏感,并能同时找到具体和抽象的规则,实现对任务相关的输入进行细微处理。

在LLM中,整个过程涉及到系统在现有文本的多个层次上识别模式,既可以看到单个单词在段落中是如何连接的,也可以看到句子是如何连接在一起以构建更大的篇章段落。

其结果是,LLM对语言的理解肯定是语境化的,在理解单词时不是根据根据字典含义,而是根据其在不同句子集合中所起的作用。

并且,许多单词的运用,比如carbonizer, menu, debugging, electron等,几乎只在特定领域使用,即使在一个孤立的句子中,该单词也会带有上下文语义。

简而言之,LLM的训练过程就是学习每个句子的背景知识,寻找周围的单词和句子来拼凑上下文,使得模型能够将不同句子或短语的无限可能性作为输入,并想出合理的方法来继续对话或续写文章等。

一个接受过所有人类所写的文章进行训练的系统,应该可以具备对话所需的通用理解能力。

LLM学到的只是浅层知识

有些人并不认为LLM初步具备「理解」能力或所谓「智能」,批评者们认为这些系统只是模仿的比较好而已,因为LLM对语言的理解仍然十分肤浅,就像在教室里故作高深的学生,实际上他们并不知道自己在说什么,只是对教授或课文的无意识模仿。

LLM对一切都有这种肤浅的理解。像GPT-3这样的系统是通过屏蔽句子或段落中的未来单词来训练的,并迫使机器猜测最有可能的单词,然后纠正错误的猜测。该系统最终能够熟练地猜测最有可能的单词,使其成为一个有效的预测系统。

图片

比如GPT-3,只是通过对句子中的某些词进行遮罩,要求模型猜测具体的单词,并进行纠正而已,最终训练成为一个预测系统。

不过这种方式也让我们对语言有了进一步的理解,实际上,对于任何问题或谜题来说,通常只有少数几个正确答案,以及无数个错误答案.

对于特定的语言技能来说,比如解释笑话、单词、逻辑难题等,实际上就是预测问题的正确的答案,进而使机器能够执行缩写、重写、复述等其他需要语言理解的任务。

正如符号AI所预期的那样,知识的表征与上下文相关,在给定前提的情况下输出一个合理的句子。

Abandoning the view that all knowledge is linguistic permits us to realize how much of our knowledge is nonlinguistic.

放弃所有知识都是语言的观点,可以让我们认识到有多少知识不是用语言来表示的。

但是,从语言上解释一个概念的能力与实际使用的能力是不同的。

比如一个语言系统可以解释如何执行某个算法,但它并不具备执行能力;它也可以解释哪些单词是冒犯性的,但并不能使用。

进一步分析还可以发现,语言模型的注意力和记忆力只有一小段时间,更倾向于关注前两句话,或是下一句话。

当涉及到复杂的对话技巧,如积极倾听、回忆和重温先前的对话、坚持一个主题以提出一个特定的观点,同时避开干扰因素等,语言模型的记忆力缺陷就暴露出来了,聊几分钟就会发现它们前后口径不一致等问题。

如果撤回太多,系统就会重启,接受新观点,或者承认它相信你所说的一切,形成一个连贯世界观所必需的理解远远超出了语言模型的知识范围。

不止语言

虽然书籍包含了大量可以解压和使用的信息,但其他格式的信息也很重要,比如宜家的使用说明书上只有图纸没有文字,研究人员经常先看论文中的图表,掌握论文结构后再浏览文字;游客可以沿着地图上的红线或绿色线在市区内导航等。

人类在探索世界的过程中学到了很多东西,一个只接受语言训练的系统,即使从现在开始训练到宇宙的尽头,也无法拥有接近人类的智能,

语言之所以重要,是因为它能够以小格式传达大量信息,特别是在印刷机和互联网发明之后,可以很轻松地复制和大规模应用。

但是压缩语言信息并不是免费的:要破译一段晦涩难懂的文字需要很大的努力。

人文学科的课程可能需要大量的课外阅读,这也可以解释为什么一台接受过语言训练的机器可以知道这么多,却又了解得这么少。

它可以接触到人类的所有知识,但书籍中的每一句话又蕴含了大量的信息,理解起来依然很难。

语言模型里没有幽灵

当然,语言模型的缺陷并不意味着机器很愚蠢,只能说明它们的智能程度存在着内在限制。

在很多情况下,我们实际上也并不需要一个接近于人类的智能体,比如我们不会把图灵测试用在另一个人类身上,迫使其他人做多位数乘法等,大多数谈话内容都只是闲聊而已。

语言可能是我们探索世界的一个有用工具,但语言并不是智力的全部,深层的「非语言理解」能力是理解语言的基础,可以加深我们对世界的认知,也能让我们理解别人在说什么。

这种非语言的、对情境敏感的、与生物相关、具身感知的知识是AI研究人员更关注的,而非语言学。

大型语言模型没有稳定的身体或持久的注意力来感知世界,仅从语言中能了解到的世界非常有限,所以学到的常识总是肤浅的。



Tags:语言模型   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
为何大语言模型不会取代码农?
译者 | 布加迪审校 | 重楼生成式人工智能(GenAI)会取代人类程序员吗?恐怕不会。不过,使用GenAI的人类可能会取代程序员。但是如今有这么多的大语言模型(LLM),实际效果不一而足。如...【详细内容】
2024-03-21  Search: 语言模型  点击:(21)  评论:(0)  加入收藏
简易百科之什么是大型语言模型?
简易百科之什么是大型语言模型?随着人工智能技术的不断发展,语言模型在自然语言处理领域的应用越来越广泛。大型语言模型作为其中的一种重要类型,受到了广泛的关注和研究。那么...【详细内容】
2024-01-26  Search: 语言模型  点击:(158)  评论:(0)  加入收藏
大语言模型插件功能在携程的Python实践
作者简介成学,携程高级安全研发工程师,关注Python/Golang后端开发、大语言模型等领域。一、背景2023年初,科技圈最火爆的话题莫过于大语言模型了,它是一种全新的聊天机器人模型,...【详细内容】
2024-01-26  Search: 语言模型  点击:(73)  评论:(0)  加入收藏
大型语言模型中最大的瓶颈:速率限制
作者 | Matt Asay策划 | 言征 出品 | 51CTO技术栈(微信号:blog51cto)速率限制意味着每个人都在等待更好的计算资源或不同的生成人工智能模型。大型语言模型(LLM),如OpenAI的GPT-4...【详细内容】
2024-01-19  Search: 语言模型  点击:(50)  评论:(0)  加入收藏
基于自注意力机制的语言模型技术研究与应用
随着人工智能的快速发展和自然语言处理的广泛应用,语言模型成为了一个重要的研究领域。传统的语言模型主要基于n-gram模型或者递归神经网络(RNN),但这些模型在处理长文本时存在...【详细内容】
2024-01-04  Search: 语言模型  点击:(62)  评论:(0)  加入收藏
面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了
ChatGPT 的诞生,让基于 Transformer 的大型语言模型 (LLM) 为通用人工智能(AGI)铺开了一条革命性的道路,并在知识库、人机交互、机器人等多个领域得到应用。然而,目前存在一个普...【详细内容】
2024-01-03  Search: 语言模型  点击:(114)  评论:(0)  加入收藏
一文读懂大型语言模型LLM
在当今的技术世界中,人工智能正以前所未有的速度发展和演变。这一领域的快速发展得益于先进的机器学习算法、海量数据的可用性以及计算能力的显著提升。特别是,在自然语言处理...【详细内容】
2024-01-02  Search: 语言模型  点击:(81)  评论:(0)  加入收藏
大语言模型真的需要这么多层吗?
研究表明,移除70% 的注意力头和 20% 的前馈网络对上下文学习影响甚微,这暗示大语言模型或许训练得不够充分。本文经授权转载宝玉老师的个人博客(微博@宝玉xp ),链 接https://ba...【详细内容】
2023-12-19  Search: 语言模型  点击:(67)  评论:(0)  加入收藏
大语言模型量化方法对比:GPTQ、GGUF、AWQ
在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。说明:每次加载LLM示例后,建议清除缓存,以防...【详细内容】
2023-11-17  Search: 语言模型  点击:(262)  评论:(0)  加入收藏
SEO中的大语言模型量化方法
随着互联网的快速发展,搜索引擎优化(SEO)已经成为了企业提升网站流量和排名的重要手段。在SEO的过程中,大语言模型量化方法被广泛应用,以帮助企业更好地理解搜索引擎的工作原理,并...【详细内容】
2023-11-16  Search: 语言模型  点击:(187)  评论:(0)  加入收藏
▌简易百科推荐
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(1)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(1)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(1)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(2)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(2)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(5)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条