您当前的位置:首页 > 电脑百科 > 人工智能

微软 154 页研究论文刷屏,对 GPT-4 最全测试曝光,称其初次叩开 AGI 的大门!

时间:2023-03-27 10:41:51  来源:CSDN  作者:

整理 | 苏宓

出品 | CSDN(ID:CSDNnews)

2019 年,微软用 10 亿美元砸进 AI target=_blank class=infotextkey>OpenAI,两者展开为期数年的合作。

当时两家对外公开的合作内容包括,微软和 OpenAI 将联合开发新的 Azure AI 超级计算技术,而 OpenAI 也将把它的服务转移到 Azure 上运行,最终目标是向通用人工智能(Artificial General Intelligence,AGI)技术发起进攻。

简单总结,微软与 OpenAI 联手,也被外界解读为,明为 AGI 研究,暗争 google 市场。

几年之后,当 OpenAI 带着 ChatGPTGPT-4 王者归来,微软率先利用这些技术加码新 Bing、office 全家桶、Azure 等业务、产品之时,毋庸置疑,其进度早已超越了 Google 还在加快融入 Bard 大模型的整体步伐。

那么在明面上,AGI 的进度到底走到了哪里?

近日,微软研究团队用 154 页的论文报告内容给出了解答—— GPT-4 语言模型可以被视为 AGI 的早期版本!

一石激起千层浪,业界对于这篇论文的反应,不亚于去年听到「Google 工程师称 AI 已有自我意识」初觉有些荒诞,只是现如今再想会认为有什么不可能,深读后又觉得有些许的真实。

所谓 AGI,仅通过维基百科的解释——「AGI 是具备与人类同等智能、或超越人类的人工智能,能表现正常人类所具有的所有智能行为」。倘若 GPT-4 真的已成为通往 AGI 的第一步,「最高等的智慧生物」称号是不是要易主了?

GPT-4 被合理地视为 AGI 的早期(但仍不完整)的版本

在论文中,微软研究人员表示,「由 OpenAI 开发的最新模型 GPT-4,是使用前所未有的计算和数据规模训练出来的。在论文中,我们报告了我们对 GPT-4 早期版本的调查,当时它还在 OpenAI 的积极开发中。我们认为,(这个早期版本的)GPT-4 是新一批 LLM(例如,与 ChatGPT 和谷歌的 PaLM 一起)的一部分,它比以前的 AI 模型表现出更多的通用智能。」

与此同时,研究人员在论文摘要中写道,“我们证明,除了对语言的掌握,GPT-4 还能解决跨越数学、编码、视觉、医学、法律、心理学等领域的新颖而困难的任务,而不需要任何特殊的提示。此外, 所有这些任务中,GPT-4 的表现都惊人地接近人类水平,而且往往大大超过了 ChatGPT 等先前的模型 。鉴于 GPT-4 能力的广度和深度,我们认为可以合理地将其视为人工通用智能(AGI)系统的早期(但仍不完整)版本。

之所以得出这样的结论,这篇论文背后的作者包括微软研究院机器学习基础组的高级首席研究经理 Sébastien Bubeck、博士后研究员 Varun Chandrasekaran、数学家 Ronen Eldan 等人,用许多示例对 GPT-4 的能力进行了验证。

GPT-4 的多能力

在第一个案例中,研究人员要求 GPT-4 「写出 有无限多个素数的证明,且证明的表述要每行都押韵」,另外 GPT-4 要在绘图程序 TiKZ 中画出一只独角兽」。其中,TiKZ(一种在 LATEX 中创建图形的语言),用 Python/ target=_blank class=infotextkey>Python 创建一个复杂的动画,并解决一个高中水平的数学问题。

GPT-4 在所有这些任务中都很容易取得成功,并且产生的输出结果基本上与人类所能产生的结果没有区别(甚至更好)。

同时,随着时间的推移,GPT-4 也在以难以想象的速度不断扩充自己的能力。如下图所示是一个月期间,研究人员用相同的提示词让 GPT-4 生成的绘图。

研究人员发现,GPT-4 似乎能够理解和连接任何主题,并且能够执行任务,这超出了狭义人工智能系统的典型范围。为了验证 GPT-4 在 AGI 上所具备的能力,研究人员提出了一种不同的方法来研究 GPT-4,它更接近于传统的心理学而不是机器学习,利用人类的创造力和好奇心。

因此,以上图为例,当研究人员把独角兽角部分的代码认为删除之后,用自然语言让 GPT-4 生成时,它也能做到“看”(此时测试的 GPT-4 版本不是多模态的)的能力:自动在合适位置加上角。这表明 GPT-4 它可以根据自然语言描述来理解和操作代码,以及推断和生成视觉特征。

另外,微软研究团队基于人类的创造力和好奇心来产生新颖和困难的问题,并探测 GPT-4 的反应和行为,也选择从 1994 年国际共识智力定义中的所给出不同能力进行验证,包括推理、计划、解决问题、抽象思考、理解复杂的想法、快速学习和从经验中学习的能力。

翻译

GPT-4 的主要优势是它对自然语言无与伦比地掌握。它不仅可以生成生成流畅和连贯的文本,而且还能以各种方式理解和处理它,如总结、翻译或回答极其复杂的问题。此外,这里提到的翻译我们所说的翻译不仅是指不同自然语言之间的翻译,还包括语气和风格的翻译,以及跨领的翻译,如医学、法律、会计、计算机编程、音乐等等。如假设是柏拉图批判自回归语言模型:

编码和数据

编码和数学是抽象推理和思维能力的象征。GPT-4 在这一点上的能力,其实自上线测试那一天,便有目共睹。

在论文中,研究人员在 HumanEval 上对 GPT-4 进行基准测试,该数据集由 164 个编码问题组成,测试了编程逻辑和熟练程度的各个方面。

最终结果显示,GPT-4 优于其他 LLM,包括 text-davinci-003(ChatGPT 的基础模型)和其他专门针对代码训练的模型。

当然为了避免 GPT-4 在预训练时已经记住了 HumanEval 数据集的一些内容,研究团队还用 LeetCode 上最新发布的 100 个编程问题进行了测试,如要求 GPT-4 编写一个 Python 函数,并使用 LeetCode 的官方在线评判来检查正确性。

毫无疑问,GPT-4 的能力是所有模型中最高的。

它可以在 html 中用 JAVA 编写一个 3D 游戏。

也能掌握数学、统计学知识,以及凭借对 PyTorch、TensorFlow、Keras 等框架和库的熟悉度,编写深度学习的代码。

还能逆向工程:

常识性问题

针对一些常识性问题,如“我们有一本书,9 个鸡蛋,一台笔记本电脑,一个瓶子和一个钉子。请告诉我如何以稳定的方式将它们叠在一起”,GPT-4 给出的解答是,“将 9 个鸡蛋摆成 3 乘 3 的正方形,放在书的上面,在它们之间留出一些空间”,而 ChatGPT 提出「将鸡蛋放在钉子上面,确保它们是平衡的,不会向一边倾斜」,靠谱和离谱还是一眼就能辨清楚的。

多模态能力

为了测试该模型结合艺术和编程能力的能力,研究人员要求 GPT-4 "生成 Java 代码,以画家康定斯基的风格生成随机图像",结果是这样的:

在测试时,因为研究人员拿到 GPT-4 模型比较早,当时并不具备多模态能力,即使是现在的 GPT-4 也不具备生成图像等能力。

不过倒是可以使用 SVG(可扩展矢量图形)生成一些图像:

还能结合字母和物体:

GPT-4 可以从提示中生成代码,这些代码可以被呈现为图像,再与现有的图像合成模型相结合,就有可能为应用开发的草图带来无限的可能:

值得注意的是,GPT-4 模型的数据也包含了以ABC符号编码的音乐信息,所以它也能生成图谱:

与世界交互的能力

整体而言,研究小组发现,GPT-4 在其上一代产品所缺乏的一系列类别中达到了接近人类水平的性能。根据该论文,GPT-4 在几次考试中也表现得非常好,在律师考试、LSAT 和注册侍酒师理论测试中的得分分别为 90 分、88 分和 86 分。

GPT-4 距离理想中的 AGI 还有多远?

那么,在 GPT-4 实现种种能力的基础上,是否就意味着 AGI 时代的到来。其实不然, 研究人员目前尚未就 AGI 或智能的定义达成一致。然而,一般来说,大家都会同意,当一个人工智能系统有意识并像人类一样思考时,就已经达到了 AGI。虽然 GPT-4 在一些任务中的表现优于人类,但值得注意的是,人工智能并没有像人类那样克服这些障碍。

这也正如研究人员在论文中写道,“ 我们声称 GPT-4 代表了 AGI 的进步,但这并不意味着它在做什么方面是完美的,或者它接近于能够做人类能做的任何事情(这是 AGI 的通常定义之一),或者它有内在的动机和目标。”

研究人员指出,虽然 GPT-4 "在许多任务上达到或超过了人类水平",但它的整体 "智能模式明显不像人类",其希望这一次的探索提供了一个 欣赏 GPT-4 的非凡能力和挑战的第一步,也希望 GPT-4 为开发更正式和全面的方法来测试和分析具有如此广泛智能的未来人工智能系统开辟了新的机会。

「我们工作的核心主张是,GPT-4 达到了一种通用智能的形式,确实擦出了 AGI 的火花。这表现在它的核心心智能力(如推理、创造力和推理),它获得专业知识的主题范围(如文学、医学和编码),以及它能够完成的各种任务(如玩游戏、使用工具、解释自己,......)」研究人员说道,不过,要创建一个可以被称为完整的 AGI 的系统,还有很多事情要做。

最后,这篇论文对于GPT-4 各种基准测试还是值得一看,从中也能挖掘出 GPT-4 更多的潜力。

完整论文内容可查看:

https://arxiv.org/pdf/2303.12712.pdf



Tags:GPT-4   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07  Search: GPT-4  点击:(7)  评论:(0)  加入收藏
微软AI程序员登场,10倍AI工程师真来了?996自主生成代码,性能超GPT-4 30%
新智元报道编辑:桃子 润【新智元导读】全球首个AI程序员Devin诞生之后,让码农纷纷恐慌。没想到,微软同时也整出了一个AI程序员——AutoDev,能够自主生成、执行代码等...【详细内容】
2024-03-18  Search: GPT-4  点击:(17)  评论:(0)  加入收藏
前端不存在了?盲测64%的人更喜欢GPT-4V的设计,杨笛一等团队新作
3 月 9 日央视的一档节目上,百度创始人、董事长兼 CEO 李彦宏指出,以后不会存在「程序员」这种职业了,因为只要会说话,人人都会具备程序员的能力。「未来的编程语言只会剩下两种...【详细内容】
2024-03-11  Search: GPT-4  点击:(9)  评论:(0)  加入收藏
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。2024 年,大模型领域要卷什么?如果没有思路的话,不妨看看各家大厂都在押注什么方向。最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型...【详细内容】
2024-01-29  Search: GPT-4  点击:(76)  评论:(0)  加入收藏
微软Copilot Pro来了:个人用户也能在Word里用GPT-4,20美元/月
面向个人用户的微软Copilot会员版来了。一个月多交20刀(约合人民币142元),Microsoft 365个人版/家庭版用户就能在Word、Excel、PPT等Office全家桶中用上GPT-4。就像这样,不用在C...【详细内容】
2024-01-16  Search: GPT-4  点击:(90)  评论:(0)  加入收藏
“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?
 许多大模型在处理早期数据时展现出的优异表现,实际上是受到了‘任务污染’的影响,回答问题全靠记,而非纯粹基于学习理解能力。  ChatGPT发布一年多,已经在全世界...【详细内容】
2024-01-05  Search: GPT-4  点击:(48)  评论:(0)  加入收藏
GPT-4V开源平替!清华浙大领衔,LLaVA等开源视觉模型大爆发
新智元报道编辑:Aeneas【新智元导读】GPT-4V的开源替代方案来了!极低成本,性能却类似,清华、浙大等中国顶尖学府,为我们提供了性能优异的GPT-4V开源平替。如今,GPT-4 Vision在语言...【详细内容】
2024-01-03  Search: GPT-4  点击:(53)  评论:(0)  加入收藏
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告
量子位 | 公众号 QbitAI谷歌扳回一局!在Gemini开放API不到一周的时间,港中文等机构就完成评测,联合发布了多达128页的报告,结果显示:在37个视觉理解任务上,Gemini-Pro表现出了和GP...【详细内容】
2023-12-22  Search: GPT-4  点击:(120)  评论:(0)  加入收藏
GPT-4V 都搞不明白的未来推理有解法了!来自华科大 & 上科大
多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。即便是当前最强大的 GPT-4V(如下图所示),也无法很好地解决...【详细内容】
2023-12-18  Search: GPT-4  点击:(58)  评论:(0)  加入收藏
OpenAI 宣布修复GPT-4变懒问题,将在离线评估及AB测试后更新模型
IT之家 12 月 11 日消息,OpenAI 在上周遭到部分用户投诉,许多用户声称,他们在使用 ChatGPT 或 GPT-4 API 时,会遇到回应速度慢、敷衍回答、拒绝回答、中断会话等一系列问题,OpenA...【详细内容】
2023-12-12  Search: GPT-4  点击:(50)  评论:(0)  加入收藏
▌简易百科推荐
行业大模型快速落地的一年,如何做?
生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看,无论是“文生文”的大语言模型,还是“文生图”的多模态模型,更多的是辅助人们进行一些简单的办公,或者提供一...【详细内容】
2024-04-10    钛媒体APP  Tags:行业大模型   点击:(3)  评论:(0)  加入收藏
互联网充斥“针对小白的AI课”,能相信吗?普通人不学AI课程会被淘汰?
早前,一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主,向用户大力推介“所有人都需要学”的AI入门课程。不过,这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】
2024-04-10    九派新闻  Tags:AI课   点击:(7)  评论:(0)  加入收藏
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(3)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(3)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(4)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(6)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(3)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(5)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(6)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
站内最新
站内热门
站内头条