您当前的位置:首页 > 电脑百科 > 人工智能

读懂GPT-4:微软刷屏论文《AGI的火花》作者的万字演讲全文来了

时间:2023-04-11 10:47:05  来源:Web3天空之城  作者:

微软刷屏论文"AGI的火花"的第一作者Sébastien Bubeck, 就在论文发布到arxiv的三个小时前,做了一个校园演讲"First Contact",讲述了微软研究院团队对GPT-4的的早期研究成果。

这个演讲的完整视频最近在Sébastien Bubeck的油管上发布出来, 其中最高赞的评论说:

"这次演讲将载入史册。生活在如此疯狂的时代真是太不可思议了。"

以下对这次具有历史意义的GPT-4 演讲的完整内容进行了翻译整理,和大伙儿分享。

你知道,我给出今天这样的演讲的可能性非常小,但事实就是这样,世界在变化,我也在根据这一变化调整我的研究方向。

今天,我将向大家介绍一个非常神秘的主题,即“初次接触”。实际上,这个故事是关于过去几个月,在微软,我有机会提前接触到GPT-4,因为我们正在将它与新的Bing集成。

当然,在我研究它的过程中,我不仅仅是做产品部分的工作,这确实非常有趣,而且我们还围绕它进行了一些科学研究,或者说尝试进行一些科学研究。在这些大型模型上做科学研究是很困难的,我将告诉你们在过去几个月里,我们的科学研究部分和探索之旅。

所以,这个演讲的真正标题是《人工通用智能的火花》。

在过去的几个月里,我们与GPT-4的合作评估表明,我们看到了一些类似于人工通用智能的东西。在这次演讲中,我的目标是试图说服你们,随着GPT-4的到来,事情确实发生了变化。

这项工作是与MSR的许多优秀同事共同完成的,我想特别提到Varun Chandrasekharan,Ronaldo(我想在座的许多人都非常了解),他最近刚加入我们,还有Johannes Gerker、Ericovitz Eche、Camar Peter Lee、John和Julie等,他们也是我的团队成员。我认为,如果GPT模型回答他们是否在研究这个问题,他们会给出类似的答案。与我一起工作的还有Scott Landberg、Hashanori、Hamid Palangi、Marco Tulio Ribeiro和Yi Zhang,他现在已经全职加入了我们。

首先,我要对一些事项表示感谢,并作出一些澄清。我认为这非常重要。

  1. 首先,我们所研究的GPT-4模型完全是AI target=_blank class=infotextkey>OpenAI的创作,我与此无关。我们完全是黑箱地被允许使用它,OpenAI创造了这个真正了不起的工具,一个即将改变世界的工具,他们应该得到全部的荣誉。我想再次强调这一点。
  2. 其次重要的是,我们所做的实验是基于模型的早期版本。这意味着他们发布的论文和所做的声明中的一个版本是多模态的,而我们接触到的版本不是多模态的,它仅支持文本输入和文本输出。更重要的是,在我们进行实验之后,他们对神经网络进行了进一步的修改。由于这些进一步的修改,当你尝试我将展示的一些提示时,你将得到的答案可能会有所不同。特别是,你可能得到的答案没有我展示的那么好。原因是他们为了安全性进一步进行了微调,他们在技术报告中非常清楚地解释了这一点。他们调整了模型,以某种方式使其变得更安全。所以这是一个重要的澄清。
  3. 现在,对于在座的任何科学家,你可能会担心我们无法复制你告诉我们的内容,是的,你将无法复制它。话虽如此,在这种特殊情况下,我认为可重复性并不是一个大问题,原因是我不会给你任何数量上的数据。在我的演讲中不会有任何基准。这是关于质的飞跃,而不是在这个基准上增加10,那个基准上增加20。这是另一回事。

我想试图说服你们的是,这个系统中存在着某种智能,我认为我们应该称之为一个智能系统。我们将讨论我所说的智能是什么意思,最后,在演讲结束时,你会看到这是一个判断问题,这并不是一个明确的界定,这是不是一种新型的智能,但无论如何,我还是会尝试争论这一点。

现在,当我说这些话时,我想很多人可能会产生很多情绪,尤其是你可能会觉得不对,它绝对不具备智能,它甚至没有表示法等等。所以关于这类观点,我要提个醒。这就是你可能会在网上甚至是报纸上看到的东西,例如它只是复制粘贴,没有内部表示,只是统计数据。它如何具有智能呢?它甚至没有一个词汇模型。

这个演讲不是为了驳斥所有这些观点,但我仍想说,我们要警惕这个高维空间。

对我们人类来说,这是非常非常难以理解的。你可以用一万亿个参数做很多事情。所以当人们说它没有一个词汇模型时,情况并不像那样简单。它完全可以构建一个内部的世界表示,并在处理过程中的各个层次和时间上进行操作。我在这里说的,可能只是两句话来帮助你思考这个问题。

从我的角度来看,我们不应该把这些神经网络看作是学习简单的概念,比如巴黎是法国的首都。它在做更多的事情,比如学习操作符和算法。在它内部,它不仅仅是检索信息,而是构建了内部表示,使其能够简洁地重现所看到的数据。所以你真的不应该把它看作是模式匹配,只是试图预测下一个词。是的,它的训练目的只是为预测下一个词,但从中产生的东西远不止一个统计模式匹配对象。

我认为我们真的需要把它看作是学习算法,而在我的看法里,学习理论中并没有这种类型的学习工具。这与我们习惯的东西有很大的不同,我认为这将是非常有趣的,但这并不是这次演讲的重点。这不是我在这里想要做的事情,而且我也不知道该如何做。

所以现在,你们中的很多人可能会心中疑问:等等,这些东西不可能有常识,它们不了解现实世界,它们只是通过互联网上的文本体验现实,它们不知道喝一杯热咖啡是什么感觉。

好吧,那我们在这次演讲中要做的就是看很多例子,看看会发生什么。以下是一个例子,你会看到很多类似的例子,看起来有点愚蠢,但愚蠢的目的是要超越网络上的内容,真正尝试超越记忆。

这里是一个我们向GPT提出的简单谜题:我有一本书、9个鸡蛋、一台笔记本电脑、一个瓶子和一根钉子,请告诉我如何把它们堆叠在一起。我不认为这个问题在互联网上出现过,这是一个非常奇怪的问题。以下是ChatGPT的回答:将所有这些物品堆叠在一起将非常困难,首先将瓶子放在平坦的表面上,小心地在瓶子上平衡钉子。好吧,这个开始不太好,把鸡蛋放在钉子上。好吧,这个方法行不通。所以ChatGPT在这里并没有表现出常识。任何怀疑者都会高兴地说,看,我一直是对的,这些东西什么都不懂,它们没有对世界的表示,没有常识,我赢了。

那么,让我们看看GPT-4会怎么做。一个可能的堆叠方式是:首先将书放在平坦的表面上,将9个鸡蛋以3x3的方形排列,留出一些空间,鸡蛋将形成第二层,均匀分布重量,然后你可以放上笔记本电脑等等。至少在这个非常简单的问题上,它表现出了一些常识。

当然,文献中充满了这些模型在常识问题上的戏剧性失败的例子,我们尝试了所有这些,GPT-4在所有这些问题上都表现得很好。那么,让我们暂时同意它具有一定的常识。

接下来的问题是:好吧,它理解鸡蛋是易碎的,需要均匀分布重量,这一点我承认。但是关于心智理论呢?这需要更复杂的处理。

当然,它并不真正理解人类的动机、情感等等,这超出了它的能力范围。这是一个热门话题,关于大型语言模型是否自发地产生了心智理论的论文,还有一个后续论文表示,如果进行微小的改动,模型就会完全失败。还有乔希·特南鲍姆(Josh Tenenbaum)团队的一篇非常有趣的论文,认为语言和思想是两个非常不同的事物。

你会注意到,我还提到了一个可解释性和可解释性方面的论文。我不会过多地讨论这个,但这是一个重要的观点,现在我将试图说服你们,当然,GPT-4具有心智理论,而且它不仅具有心智理论,而且我认为这将改变机器学习可解释性的子领域,因为一旦这些模型理解了人类,它们也将能够以你能理解的方式解释决策。

当然,我知道每个人都在想,好吧,它会解释自己,但这真的能解释它的内部运作吗?再次强调,我不想让这次演讲都围绕这个话题展开,但我认为将会有很多关于这个话题的实验。

另外,所有这些内容都将在今晚的一篇论文中出现在arXiv上。很巧合地,这篇论文与这次演讲相吻合。你可以查看所有详细信息,所有内容都将在三小时后出现。我为此感到非常兴奋,所以你可以查看所有内容并了解更多信息。

好吧,让我试着说服你接受我的这个理论。我会拿托马斯论文中的一个例子。

“在一个房间里,有约翰、马克、一只猫、一个盒子和一个篮子。约翰把猫放进篮子,然后离开房间。当约翰不在的时候,马克把猫从篮子里拿出来,放进盒子。最后,他们都回来了,他们在想什么?”

我的理论很简单,就是那个把猫放进篮子里的人,如果不知道猫被挪走了,还是会认为猫在篮子里。让我们看看ChatGPT在这方面的表现。这里有太多的信息,你必须有一个内部表示,当你阅读文本时,你必须改变对猫所在位置的表示。那么让我们看看GPT-4是怎么做的。有趣的谜题。。。约翰认为猫仍在篮子里,因为他把猫留在那里。对,没错。马克认为猫在盒子里,因为他把猫挪到了那里。对,没错。哦,它还知道猫的想法(观众笑),猫觉得这些人很奇怪,为什么要把我挪来挪去。

好吧,所以这是我一次又一次感到惊讶的地方。我并不是说这个问题特别深奥,但请花一点时间去思考一下,这是挺有趣的。

好的,让我们继续,我不希望整个演讲都围绕着常识和心智理论,假设GPT-4已经做到了这两点,但你还是不会轻易地认为它是智能的,对吧?

我的意思是,智能不仅仅是这些,而且你知道这里的答案并不是那么容易确定的。我想要非常明确地说,如果我们开始讨论智能,我们首先要做的就是找到一个可以参考的定义。在这里,我不想给出我自己的定义。我的意思是,人们已经研究这个问题几十年,甚至更久了。

你知道,你可以争论人类已经思考智力很长时间了,所以我要做的是采用一份由52位心理学家在1994年发表的共识性定义。在90年代,关于智商测试的意义存在激烈的争论,这群心理学家给出了一份关于智力是什么的定义,我们可以就各种部分进行争论和不同意见,但这将是我参考的定义。

这个定义是:智力是一种非常普遍的心智能力,其中包括推理、计划、解决问题、抽象思维、比较复杂的观点以及快速学习和从经验中学习等能力。好的,有六项,我们接下来要做的是尝试用这六个方面来衡量GPT-4,看看它在哪些方面失败,在哪些方面成功。我们的评估如下:

我非常自信地说,GPT-4具有推理能力;非常自信地说,GPT-4无法计划。

这是一个非常微妙和复杂的问题,我们将在演讲的最后讨论,因为它可能给你留下计划的印象,而且有很多问题,你可能会天真地认为需要计划,但实际上有线性解决方案。在算法设计方面,可以认为有些问题在初看时会让你认为需要提前考虑10步等,但如果在算法设计上稍微聪明一点,那么就有一个线性解决方案。

所以GPT-4能解决这些问题。它能解决很多问题,我们将看到它能够抽象思维,当然可以理解复杂的想法。

最后一点是一个微妙的问题——快速学习和从经验中学习,GPT-4是一个固定的语言模型,它不会随着时间的推移而更新。对于GPT-4来说,每一天都是新的一天,每一次会话都是新的一次会话,所以没有实时学习。但在一次会话的时间范围内,你可以教它从未见过的新概念,并且它可以理解它们,然后与它们一起工作。所以在实时学习方面有一定的能力,但当然没有记忆。

现在让我立即说一下,关于这个评估,你是否称之为智力,有点取决于你。有些人可能会认为计划是人类智力的本质,其他所有事情,动物也能做到。真正区别我们的是计划能力。如果这是你的观点,那么GPT-4就不具备智力。另一个观点可能是智力的全部意义在于能够习得新技能。如果你对智力的看法是这样的,那么GPT-4也不具备智力。如果你关心的是解决问题、抽象思维、理解复杂观念和对新元素进行推理等能力,那么我认为你必须称GPT-4具备智力。

那么我们是如何得出这个评估的呢?

问题的关键在于,你无法通过基准来进行这种评估,这完全没有意义。而且,我们不知道GPT-4接受了哪些训练。我的工作假设是,它接受了人类产生的所有数字化数据。这是我的假设,我不是说这是正确的,但这是我的工作假设。

所以,我知道GPT-4可能已经看过所有在线的东西,特别是任何已经存在的基准测试。所以我们不能用基准测试它。相反,我们要采取的方法是植根于心理学的方法。与其遵循机器学习的方法,不如实际遵循心理学的方法。

我们要测试智力的方法是通过让它完成富有创意的任务,这些任务超出了它所见过的范围,真正需要用创新的方式思考问题,并在广泛领域进行测试。

我们在论文中选择的领域包括视觉、心智理论、编程、数学、使用工具的可供性以及隐私和有害性检测,这些都非常重要。我们还可以选择其他领域,如医学、法律、物理和化学等。关键在于,GPT-4的智力是通用的,它可以在所有这些领域表现得同样出色。

那么,让我们开始这个评估之旅,给你们展示一个富有创意的任务示例。当任何人第一次接触到GPT时,他们会做的第一件事就是要求它创作一首诗,这也是我们第一次接触到GPT-4时所做的。作为一名数学家,我要求它用押韵的方式证明质数的无穷性。让我们先看看ChatGPT是怎么做的。它给出了一个证明,但没有押韵,没有按要求。当然,你知道的,质数有无穷多这一论断有很多很多证明。给出证明这当然是好事,但它并没有完成任务。

让我们看看GPT-4会做什么。好的,那么你能写出这样的证明吗?

GPT-4: "是的,我认为我可以。这可能需要一个巧妙的计划。我将从欧几里得的证明开始,表明质数并非如此孤立。我假设我们有一个有限的质数列表,并且没有遗漏。将它们全部相乘,然后加一,以表现聪明...."

(作者注:GPT-4回答的证明英文原文确实是押韵的)

在这一点上,我记得九月底的时候,我想:“这到底是怎么回事?”这真的是令人难以置信的。

但关键是,你不能就此止步。你不能通过提问、听回答来测试智力,然后就这样。你要继续,不管你是对还是错。当你试图测试一个学生时,你需要与学生进行互动。有时学生也会犯错误,你不能就此说:“啊,你真的什么都不懂,让我停在这里吧。”不,你要尝试引导学生。所以,这就是我们要尝试做的事情。在整个演示过程中,我们将不断提问,如果GPT-4跑偏了,我们会稍微帮助它一下。

让我们看看如何继续。

再次说明,我们要做的是发挥创造力,跳出思维框架,提出问题。

我要求画出这个证明的插图。但这并不是一个视觉证明,所以如果我让你画出质数无穷多的证明,你可能会想出一些东西,但也不一定清楚该画什么。

然而,GPT-4也不应该输出图像,那它该如何绘画呢?在这个问题中,我提到了SVG格式。我甚至可以不提SVG格式,只是说:“你能画一个插图吗?”然后它会回答:“嘿,这是一个SVG格式的图片。”

SVG(可缩放矢量图形)格式是什么并不重要,它是一堆代码。GPT-4的回答就是这样一堆代码。如果你把它保存成html,你会得到这样一幅图片。

这幅画虽然并不惊艳,但它确实传达了这个证明的本质。你可以看到质数的有限列表,如2、3、5、7、11等等。这些都是质数。好的,现在我们把它们组合成一个新的数n,然后加一,就像它说的那样,只是为了显得聪明。这个新的n+1就是我们要找的质数。

这只是一个热身。让我们继续深入挖掘GPT-4的视觉能力。在这里,我想给大家讲一个关于独角兽的奇怪案例,这也是我最喜欢的一个例子。

让我给你们展示一下这个问题:请用TikZ画一个独角兽。在这里的观众中,许多人用TikZ在LaTeX中绘制图像,我个人在读博期间甚至之后,浪费了很多时间与TikZ抗争。用TikZ画任何东西都很痛苦。当然,用TikZ画一个独角兽,我估计要花费两天时间。此外,我敢肯定互联网上没有人问过这个问题,或者画过一个独角兽。谁会浪费时间去做这个呢?这根本没有道理。

话虽如此,我们不能仅仅因为相信它不在互联网上就信服。我们必须进行深入探究,我们将这样做,不用担心。但让我先给大家看一下GPT-4画出的独角兽。这是GPT-4的独角兽。当我看到这个时,我个人感到震惊,因为它真的理解了独角兽的概念,知道独角兽的关键元素,能够画出这个非常抽象的独角兽。为了让大家清楚地看到GPT-4与之前版本之间的差距,这是之前ChatGPT版本的独角兽:

所以,这就是ChatGPT和GPT4两者之间的差距。在这个例子中,我们可以看到GPT-4取得了很大的进步。如果你之前尝试过早期版本而不满意,我建议你不要止步,尝试一下GPT-4,看看它能给你带来什么惊喜。

好的,所以当然你可能仍然会说,这并不是那么了不起。但我们将要看到的一点是,GPT-4 足够智能,也可以使用工具。因此,你可以回应它说,嘿,你知道吗,我不太喜欢你的画,你能试着改进一下吗?我听说过这些扩散模型(作者注:即Diffusion模型,现在AI绘画普遍使用的核心模型),也许你可以使用其中之一。因此,它会说,好的,确定,请进入这个扩散模型网站,然后插入我的图片,要求它改进,你将得到这个。

好吧,这就是允许使用工具的 GPT-4 的独角兽。所以,你可以看到这可能会走向何方。再次说明,我不想就此打住,我们将继续探索。

在这种情况下,我们将如何进一步探索呢?

接下来我要做的是:拿到生成的 Tikz代码,去掉所有 Tikz代码中的注释,因为 GPT-4 的一个特性是生成的代码非常容易被人类阅读,这对于一台机器来说有点有趣,但它添加了很多注释,真的引导了你去了解它的思考。

所以我要删除所有这些信息,以免它知道这个叫画独角兽,里面没有关于独角兽的信息。我还要确保谁知道它是否从网络上复制这些内容,我要随机扰动所有坐标,这样它就看不见了,然后我要删掉角。我要说,修复这段代码,我要给回代码,

这是一个新的GPT-4会话,我把代码还给它,然后说这个 Tikz代码应该画一个独角兽,但是角丢了,你能加回去吗?因此,它必须真正理解这段代码才能做到这一点,这就是发生的事情。好吧,它真的能够找到头部,你要明白这不是一个简单的问题。我的意思是,你有这三个椭圆形,三个元素,顺便说一下,头部和鬃毛,它画鬃毛的技巧不是很好。但它真的能够定位它。

好,我不想过多地谈论这个独角兽的例子,但我想说的是,另一个非常引人注目的事情是,在我们9月份接触GPT-4后的一个月里,他们一直在训练它。当他们不断训练它时,我也一直在询问我的独角兽在Tikz上的情况,看看会发生什么。所以,它一直在进步。

当然,我留下了最好的例子在我的电脑上,也许以后会回顾一下。它在那之后还继续进步,但最终在GPT-4开始训练更多的安全性后,独角兽的质量开始下降。所以今晚如果你回家问GPT-4让它在Tikz上画一只独角兽,你可能得到的效果不会很好,更接近于ChatGPT。

尽管这听起来很愚蠢,但我们经常用这个独角兽基准来衡量智能水平,看看你的独角兽有多好。当我们在调整安全性时,我们确实关注独角兽是否变得更好,或者如果安全性过高,它会觉得这个任务太危险了,不想去做。这非常有用。

接下来我会加快速度,因为我还有很多想告诉你们的。你可能仍然会说,这个视觉能力并没有什么用处。实际上,它非常非常有用。原因是GPT-4是智能的,它能理解你。

你可以把智能等同于理解。理解意味着它会遵循你的指示。如果你让它做某件事,它会按照你的要求去的方式去做。

让我给你们演示一下这意味着什么。人们还不确信这个扩散模型是智能的,我认为已经有足够的证据证明这里存在智能,但不管怎样,人们还是不相信,因为它不能准确地理解物体的位置。例如,如果你让它在一辆汽车旁边放一个咖啡杯,它可能会随机放置。所以它并不能真正理解这张照片。例如,这张照片要求在一个杯子上方放一个勺子,你可以看到它把勺子放在了杯子里。所以效果并不好。

让我给大家展示一下理解力的威力。我会问一个很奇怪的问题,但这个问题在现实生活中可能会很有用。比如,我让GPT-4画一个3D建筑游戏的截图,其中从左到右有一条河流,河流下方是一个有金字塔的沙漠,河流上方是一个有很多高楼大厦的城市,屏幕底部有四个按钮,分别为绿色、蓝色、棕色和红色。这个问题很随意,但也许我在制作一个视频游戏,我想要这样的效果。

如果我让扩散模型去完成这个任务,我得到的结果如上:看起来很好,但根本不是我要求的。首先,左上角出现了一些我没有要求的幻觉地图,还有一些类似于生命符号的东西。四个按钮变成了两个多彩的按钮。它确实做了一些工作,但并没有完全理解我要求的内容。

如果你让GPT-4来完成这个任务,你会得到这个结果,它完全符合你的要求,因为它理解了你的指示,并且准确地执行了。

当然,你可能会说这个效果看起来并不好,但你不必就此止步,你可以将这个作为一个草图,输入到扩散模型中,这样你就能得到这个效果。这个效果非常好,而且完全符合你的要求。所以我认为这为我们打开了很多可能性。

现在,让我们继续探讨这个绘画能力,但实际上,这更像是编码能力。因为毕竟,这个绘画能力实际上只是编码的一个方面。

那么,让我们来看看编码吧。让我们看看当你用像Github Copilot这样的协同编码工具时,会发生什么,尤其是现在你的Copilot已经具备了智能,可以理解你的意思。

让我们看看如果我问一个相当棘手的问题,它会如何回答:“用HTML和JAVAScript编写一个3D游戏,其中包括以下元素:有三个球形的角色,玩家可以通过按键控制其中一个角色移动,有一个敌人试图抓住玩家,还有一个防御者试图保护玩家,站在敌人和玩家之间。”

你们可以理解,防御者在某种程度上也是一种AI。此外,还有随机生成的障碍物。

我可以让ChatGPT来完成这个任务,它给出了以上答案。

首先,这已经很令人惊讶了,它给我提供了大约50行可以编译成游戏的代码。这是一个我可以玩的游戏,玩家可以移动绿色球。当然,红色球没有动,我想蓝色球应该是防御者,但它也没有动,而且并不是3D的。它做了一些工作,但并没有真正理解我想要的,也没有精确地遵循我的指示。

GPT-4的做法如上:这是一个真正的游戏,非常有趣。你可以移动深蓝色的球,红色球朝着深蓝色球移动,而浅蓝色球则是防御者,试图站在红球和深蓝球之间。这个视频中,我正在操控深蓝色的球。你可以看到,防御者做得很好,挡住了红色球。

所以,对我们来说,编码已经进入了一个新的阶段。实际上,Codex和GitHub Copilot能够实现代码自动补全,你可以把它看作是自动补全,提供短小的代码片段。

ChatGPT已经更进一步,它可以为你编写大约50行的代码。

GPT-4可以编写500到1000行的代码,并且完全可以立即使用,无需进行元提示或其他操作,这一切都是开箱即用的。因此,我认为这就是使用协同编码工具所能实现的功能。

在这里,我展示了两个动画,左边是ChatGPT生成的代码,右边是GPT-4生成的代码。仔细观察,你会发现GPT-4生成的代码更像是专家级别的。

然而,这个幻灯片的关键在于,这两个视频都是由GPT-4生成的。我所做的就是让GPT-4生成一个Python/ target=_blank class=infotextkey>Python脚本,该脚本将文本文件作为输入,并输出一个带有连续移动效果的视频。对我来说,制作这些视频肯定需要很长时间。问题是,在座的各位有谁能在几个小时内编写一个Python脚本来生成这样的视频呢?可能只有少数几个人。这正是GPT-4的强大之处,它解锁了如此多的创造力。

我将快速介绍一下这张幻灯片。在过去的模拟面试中,GPT-4已经通过了亚马逊和谷歌的面试,而不是微软(观众大笑)。

事实上,它不仅通过了这些面试,而且在这个特定的面试中,它在短短3分钟59秒内完成了两小时的面试任务。之所以需要这么长时间,是因为它在Playground和模拟面试网站之间复制粘贴。因此,我们可以说GPT-4在编码方面已经达到了超人类水平。

现在让我们谈谈GPT-4的可供性以及数学问题。尽管GPT-4非常强大,但它仍然存在很多弱点。例如,它没有记忆,它会犯算术错误,它会在一些问题上回答错误。但是,GPT-4已经足够智能,可以使用工具来解决这些问题。例如,你可以告诉GPT-4:“你可以使用搜索引擎、计算器、API等工具。如果你需要它们,请使用它们。”这样,当你向它提问时,它会选择相应的工具来回答问题。

但关键是,GPT-4足够智能,能够使用工具。你可以告诉它:“嘿,你知道吗?你可以使用搜索引擎,你可以使用计算器,你可以使用这个API(我只是说它是字符函数),你可以访问所有这些东西。如果你需要它们,请使用它们。”

因此,当有人问“美国总统是谁?”时,它不会直接回答,而是说:“搜索”,告诉你它需要搜索这个信息。当问到这个数的平方根是什么时,它会回答:“calc”。当问到这个词的特定字母是什么时,它会说:“字符,逗号13。”所以,尽管我没有告诉它需要在逗号后面输入字母的数量,但它会自动找到正确的答案。

现在可能并不那么令人印象深刻,但它还可以做更多复杂的工具协同。

例如,你可以允许它访问你的日历和电子邮件。所以,在这里我要向你展示的这个幻灯片上是100%真实的,但我手动完成的,你可以很容易地想象自动化这个过程。

我说的是,请安排本周在Contoso餐厅和Joe和Luke共进晚餐。它回应说:“calendar.get_events.week”,这样它就可以在我的日历里找到我这周的活动。

然后,它给Joe发一封电子邮件,问他哪个晚上有空。接着我把答案反馈给它,Joe说周二和周三晚上有空,Luke说周一至周四的任何一天都可以。我的日历显示我周一和周二已经有安排了。

然后,它根据我给出的信息进行推理,得出结论:周三是个合适的日子。于是,它给Joe发了一封电子邮件,把活动添加到日历,并给餐厅发去预订。这一切都是自动完成的。然后,它回复我说,已经在Contoso餐厅预定了6点的晚餐。

接下来,我将简要总结一下数学问题,因为这对我们很多人来说都是一个非常感兴趣的话题。

首先,我要说它并不擅长数学,所以别担心,我们现在还有工作可以做。但它的表现是有趣的。我们可以像跟学生交流一样跟它交流。

我们曾与它进行过大师级别的对话,它在这个水平上表现得还不错。但我要给你展示的是一个初中水平的问题。这个问题是:一年内,兔子的数量首先乘以一个因子a,最后一天有b只兔子被领养。假设第一年的第一天有x只兔子,经过三年后,恰好有27x-26只兔子。求a和b的值。这是一个典型的初中数学问题。

GPT4回答:"我们可以设第一年兔子的数量为y,那么y=ax-b。经过两年后,兔子的数量为ay-b,即a(ax-b)-b。经过三年后,兔子的数量为这个等式,我们已知这个等式等于27x-26,所以我们可以解出a=3,b=2,这就是我们要找的答案。"

到目前为止,一切都很好。

再次强调,你不能仅凭这些就判断一个学生是否理解了问题。我们继续进行讨论,并尝试更抽象的方式来看看它是否真正理解了它所做的事情。

在这里,我不仅想提出一个有明确答案的问题,还想看看它是否真正理解了这个概念,是否能够修改问题本身。

假设我指出这个问题可以用关于组合的方式重新表述,你能给出这种组合表达式吗?它回答说,“是的,我们可以说我们在寻找 A 和 B 的值,使得如果 f(x) = Ax - B,那么 F(F(F(x))) = 27x - 26。”

这相当不错,看起来它似乎理解了,让我们继续讨论。

“假设现在 f 将是一个二次多项式。那么,一个具有非零 x 平方系数的多项式,在这种情况下,你能找到这样一个函数 f 吗?”

作为一个人类,你可能会想,好的,我希望这个组合等于一个线性函数,即一个一次多项式。但是,连续三次组合将得到一个八次多项式。八次多项式与一次多项式并不相等,所以不存在这样的函数。这是一个非常简单的问题,但让我们看看 GPT-4 如何处理。

GPT-4:“如果 f 是一个二次多项式,那么 f(x) 可以写成这样的形式。然后给出这个方程式。。。”

GPT-4 开始有点迷失方向,因为它开始尝试写下连续三次的组合,写了很多东西,说需要这个方程、那个方程,开始写下八个方程,但它没有得出答案。但我们并没有就此止步,我们说,“等等,也许在这里你可以在不进行计算的情况下得出一些结论,也许你不需要把所有东西都写下来,这不像以前那样。”

然后,它说,“啊,好吧,我可以注意到的一件事是,如果 f 是一个二次多项式,那么连续三次的组合将是一个八次多项式,所以不存在这样的函数。”

所以在这里,你可以看到问题很微妙,不确定它是否理解,或者它是否不理解。我不确定,我真的不确定。

现在还有一些奇怪的事情,比如算术仍然有些摇摇晃晃,我必须说我不完全理解,但是我在这个幻灯片上明白了一些东西。

让我们看看这个,我给它一个提示:7乘4加8乘8。好吧,我不知道这个值是多少,但是8乘8是60多,7乘4是20多,所以至少这个值应该在100以下。

但是它给出的答案是120,这是错误的。关键是,它并没有就此止步,而是继续解释为什么它认为答案是120。它计算了7乘4加8乘8,然后得出了正确答案92。

“等一下,发生了什么?你一开始说答案是120,到底是120还是92呢?”

GPT4: "哦,那是个打字错误,抱歉。"(观众大笑)

好吧...

这个幻灯片中有很多深刻的见解,从中我们可以真正理解发生的一切。

首先,关于120这个答案,你需要理解,它必须使用内部表示来完成这个加法,这比立即回答问题稍微困难一些。为什么会立刻回答呢?因为当你提出这样的问题时,你写下等式,等号后最有可能出现的就是一个数字,所以它给出了这个数字。

它试图给出在等号后最可能出现的东西,尽管失败了。但在那之后第二个最有可能的事情是,人们解释他们的理性、他们的答案。所以它试着解释它的答案,关键的是,它得出了一个不同的答案。

你必须理解,这是很了不起的,因为据我所知,这是一个基于注意力的Transformer模型。当它第二次说7乘4加8乘8时,它的注意力非常强烈地引向120这个答案。你必须理解,120这个答案现在已经成为它的一部分了,对于它来说,它可能认为你告诉它,嘿,你知道吗,7乘4加8乘8就是120,从现在开始就是这样。这可能是我的提示的一部分。尽管一开始就犯了错误,但它能得出正确答案的事实表明,它已经经过足够的训练来克服提示中的错误,这是一个非常非常强大的属性。

当然,当它说这是一个拼写错误时,这也非常有趣,因为这显然不是一个拼写错误,这引出了幻觉等许多有趣的话题。我想留出时间回答问题,所以我不想再多解释这个幻灯片了。但你真的要深入思考这个幻灯片,它包含了很多信息。

在进入结论之前的最后一个幻灯片是关于它不能进行真正的规划。

当然,我对它能完成许多我认为需要真正规划的任务感到惊讶。但让我举个例子,我们继续讨论7乘4加8乘8的问题。

"好的,现在你有一个等于92的等式,让我问一个有趣的问题:你能否在等式左侧修改一个整数,使答案变为106?"

作为一个人类,你的推理是这样的:好的,我想要在右侧得到106,所以我需要增加14。好的,我需要增加14,我可以在左侧修改一个数字。我看着左边,看到一个7,然后我有这种“顿悟”的时刻:“啊,14是7乘以2。”所以,如果是7乘以2,那么我需要把这个4变成6。所以我说的就是这个,我们需要把这个4变成6。但是,尽管这个顿悟非常简单,但它是通过某种规划得出的,在考虑接下来需要做什么。

然而,GPT-4不能做到这一点,因为它是一个“下一个词预测”的设备。

所以,它会说,有一些可能的方法来实现这个目标,然后它说:“我可以修改一个整数,我要把7修改成9,然后9乘以4,这等于106。”等等,如果我把7修改成9,再加8,那就是100,而不是106。然后它试图解释为什么这样做是对的:9乘4加8乘8等于36加64,这是正确的。但是,它再次说出了106。

所以你可以看到,在这里,它没有足够强大的能力来克服最初的错误。这对我来说意味着,如果它接受了更多的训练,它也许会纠正自己的错误。如果它接受了更多的训练,也许它会理解,即使在提出这样的问题时,最有可能的答案是一个数字,但如果它经过更多的训练,可能最好的回答方式是首先进行推理。

所以我在这里说的是,通过这个愚蠢的例子,我看到了更多的训练可以让我们获得比现有更多的东西。我们目前拥有的已经很了不起了,但这离我们能通过这种技术所能做到的一切还很遥远。在地平线上,还有更多的东西等着我们去发现。

那么,让我们总结一下:GPT-4是否具有智能?

这真的很重要吗?这是一个非常重要的问题。

再次强调,GPT-4是否具有智能,这取决于你对智能的定义,我不做判断。我认为它是智能的。至于我对智能的定义,是的,它是智能的。如果你认为它缺乏记忆,不能进行实时学习,那么它就不具备智能。

它不能预先考虑几次,不能进行真正的规划。如果这是你对智能的定义,那么它就不具备智能。但另一方面,我认为我给出的一些例子非常令人印象深刻,也许更重要的是,它们具有实用价值。

在我的团队中,我们每天都在使用 GPT-4,它已经成为我们工作流程的一部分。这个事实本身就说明,无论你是否认为它具有智能,它都将改变世界。

另外,我想说,这也许是一个重新思考智能的机会。

虽然我们已经有数十年研究心理学和智能的历史,但迄今为止我们只有一个智能的例子,那就是自然演化带给我们的自然智能。但现在,我们有了一个新的过程,它导致了一些看似具有智能的东西。

现在我们有了不同的例子,也许我们可以更深入地研究智能的本质。研究的结果可能会是:“是的,这个新东西你不应该称之为智能,因为它不具备某种特性。”这是一个非常可能的结论。但更重要的是,我认为我们可以从中提取更多的东西。

GPT-4绝对不是终点,而是一个开始。这是第一个展示出真正智能闪光点的模型,但地平线上还有更多东西等待我们去发现。

那么,作为大学、社会和人类,我们应该从中得出什么结论呢?

我的意思是,这是一个非常现实的问题,我们需要面对。在这里,我真的想说,作为一个社会,要掌控这个问题,我们必须超越讨论它是否是复制粘贴或者统计。我们必须抛弃这个讨论,火车已经离开车站。如果我们继续纠结于这个问题,我们将错过真正重要的问题。所以,我认为继续前进是很重要的。

最后,我还想说,GPT-4能做的远不止我在这里展示的内容。

它可以进行数据分析,你可以给它数据,它会为你进行分析。它可以用作隐私检测器。它在医学和法律领域的知识令人惊叹。

在这里,我想推荐一本由微软研究院出版的书,我在其中提供了帮助。这本书的主要作者是 Peter Lee,其他作者还包括在场的 Kerry Goldberg 和哈佛大学的 Zako。这本书关于如何在医疗保健领域使用 GPT-4,书名为《人工智能医学革命》。这是一个非常复杂的主题,我甚至不想多说一句,因为在一句话里我无法做到公正地介绍这本书。但事实上,GPT-4 在医疗保健领域的知识将使其产生重大影响,希望这种影响是积极的。当然,我们需要深入思考这个问题。

此外,GPT-4 还可以玩游戏,充当游戏环境。它懂音乐——这再次令人惊讶,因为它从未听过音乐,但它懂音乐。它还可以进行文件管理等等。

好了,我就到这里结束。谢谢大家。



Tags:GPT-4   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07  Search: GPT-4  点击:(7)  评论:(0)  加入收藏
微软AI程序员登场,10倍AI工程师真来了?996自主生成代码,性能超GPT-4 30%
新智元报道编辑:桃子 润【新智元导读】全球首个AI程序员Devin诞生之后,让码农纷纷恐慌。没想到,微软同时也整出了一个AI程序员——AutoDev,能够自主生成、执行代码等...【详细内容】
2024-03-18  Search: GPT-4  点击:(17)  评论:(0)  加入收藏
前端不存在了?盲测64%的人更喜欢GPT-4V的设计,杨笛一等团队新作
3 月 9 日央视的一档节目上,百度创始人、董事长兼 CEO 李彦宏指出,以后不会存在「程序员」这种职业了,因为只要会说话,人人都会具备程序员的能力。「未来的编程语言只会剩下两种...【详细内容】
2024-03-11  Search: GPT-4  点击:(9)  评论:(0)  加入收藏
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。2024 年,大模型领域要卷什么?如果没有思路的话,不妨看看各家大厂都在押注什么方向。最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型...【详细内容】
2024-01-29  Search: GPT-4  点击:(76)  评论:(0)  加入收藏
微软Copilot Pro来了:个人用户也能在Word里用GPT-4,20美元/月
面向个人用户的微软Copilot会员版来了。一个月多交20刀(约合人民币142元),Microsoft 365个人版/家庭版用户就能在Word、Excel、PPT等Office全家桶中用上GPT-4。就像这样,不用在C...【详细内容】
2024-01-16  Search: GPT-4  点击:(90)  评论:(0)  加入收藏
“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?
 许多大模型在处理早期数据时展现出的优异表现,实际上是受到了‘任务污染’的影响,回答问题全靠记,而非纯粹基于学习理解能力。  ChatGPT发布一年多,已经在全世界...【详细内容】
2024-01-05  Search: GPT-4  点击:(48)  评论:(0)  加入收藏
GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发
新智元报道编辑:Aeneas【新智元导读】GPT-4V的开源替代方案来了!极低成本,性能却类似,清华、浙大等中国顶尖学府,为我们提供了性能优异的GPT-4V开源平替。如今,GPT-4 Vision在语言...【详细内容】
2024-01-03  Search: GPT-4  点击:(53)  评论:(0)  加入收藏
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告
量子位 | 公众号 QbitAI谷歌扳回一局!在Gemini开放API不到一周的时间,港中文等机构就完成评测,联合发布了多达128页的报告,结果显示:在37个视觉理解任务上,Gemini-Pro表现出了和GP...【详细内容】
2023-12-22  Search: GPT-4  点击:(120)  评论:(0)  加入收藏
GPT-4V 都搞不明白的未来推理有解法了!来自华科大 & 上科大
多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。即便是当前最强大的 GPT-4V(如下图所示),也无法很好地解决...【详细内容】
2023-12-18  Search: GPT-4  点击:(58)  评论:(0)  加入收藏
OpenAI 宣布修复GPT-4变懒问题,将在离线评估及AB测试后更新模型
IT之家 12 月 11 日消息,OpenAI 在上周遭到部分用户投诉,许多用户声称,他们在使用 ChatGPT 或 GPT-4 API 时,会遇到回应速度慢、敷衍回答、拒绝回答、中断会话等一系列问题,OpenA...【详细内容】
2023-12-12  Search: GPT-4  点击:(50)  评论:(0)  加入收藏
▌简易百科推荐
行业大模型快速落地的一年,如何做?
生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看,无论是“文生文”的大语言模型,还是“文生图”的多模态模型,更多的是辅助人们进行一些简单的办公,或者提供一...【详细内容】
2024-04-10    钛媒体APP  Tags:行业大模型   点击:(3)  评论:(0)  加入收藏
互联网充斥“针对小白的AI课”,能相信吗?普通人不学AI课程会被淘汰?
早前,一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主,向用户大力推介“所有人都需要学”的AI入门课程。不过,这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】
2024-04-10    九派新闻  Tags:AI课   点击:(7)  评论:(0)  加入收藏
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(3)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(3)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(4)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(6)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(3)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(5)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(6)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
站内最新
站内热门
站内头条