您当前的位置:首页 > 电脑百科 > 程序开发 > 架构

工程与产品的胜利,深度剖析ChatGPT和聪明地设计基础架构

时间:2023-02-08 12:22:30  来源:  作者:机器之心Pro

机器之心转载

来源:Suits and Hoodies

 

这里转载一篇深度剖析ChatGPT成功的一篇好文章:ChatGPT 实际上并不是普通人眼中的「黑科技」,而是持续开放科研的产物,是工程与产品的胜利。它将促使Infrastructure成为最大的赢家。

 

在这个 AI 时代,语言模型已经成为了人机交流的关键工具。而 ChatGPT 则是其中的佼佼者,这个由 OpenAI 训练的模型,以其卓越的理解和生成能力,成为了一个人人景仰的网红:所以第一篇写 ChatGPT ,抛砖引玉,仅代表个人意见,不代表现在或之前供职的企业的观点。


 

太长了我懒得看

没关系,主要是四个观点:

ChatGPT 并不是黑科技,是持续开放科研的产物。

ChatGPT 是工程、产品的胜利。

ChatGPT 不会让人失业,反而会带来更多的机会。

Infrastructure 会是这一场仗当中的赢家,但是要聪明地设计Infra。

有兴趣的读者可以进一步往下读。

ChatGPT 是持续开放科研的产物

ChatGPT 背后的技术,最主要的一篇文章是 2022 年 OpenAI 发表的论文 InstructGPT 。InstructGPT 的核心思路是之前两条研究线路所带来的:一个是自然语言理解的大规模语言模型 LLM,另一个是带人类反馈的增强学习 RLHF。

大规模语言模型 LLM 在前面几年方兴未艾,从 GPT 开始,往回可以推到 Bert ,这两种都是基于所谓的 Transformer 结构来设计的。而Transformer 的出现本身又是为了解决早期的序列模型(比如说LSTM 和 RNN)的问题所提出来的。很有意思的是这一系列模型多少都采取了不带太强结构的统计方法:“根据周边的词语来预测中间的词语”,或者“根据前面的文字来生成后面的词语”。这和传统的基于语法树的方法很不一样,感兴趣考古的读者可以去看看 PCFG,计算语言学当中很经典的一个算法。

RLHF 也是一个近年以来比较流行的算法。增强学习最经典的书应该是 Sutton & Barto 所写的同名著作《Reinforcement Learning》。2004年,Pieter Abbeel 和吴恩达就利用 RL 提出了叫做 Apprenticeship Learning 的方法,来让机器学会复杂的动作,比如说让直升机进行空中转体:


 

2017年开始DeepMind 的一系列工作(电子游戏、围棋等)让 RL 深入人心,ChatGPT 对于对话系统的训练也深得前面这些工作的影响。因此,整体而言,ChatGPT的一系列工作,都在前面有着很深的铺垫,应该说是站在开放科研的肩膀上做出的工作,其中的功底不得不让人叹服。这不是别人做出大模型之后,简单跟进说“我们可以做得更大”,而是在原有的基础上做更多创新的成果。

ChatGPT 是工程和产品的胜利

有一个问题:ChatGPT 的训练数据,是从哪里来的?

我们可以猜测,基础的语言模型,例如GPT-3,训练的数据来源有很多类似 LAION 这样的从网上抓取下来的数据。在此基础上, InstructGPT 的文章当中提到了很有意思的一点:

Starting with a set of labeler-written prompts and prompts submitted through the OpenAI API, we collect a dataset of labeler demonstrations.of the desired model behavior.

也就是说,OpenAI 前序所推出的 playground、GPT-3 API 等等,一边在进行产品和市场的适配的途中,另一方面也给后续的科研带来了大量的数据输入。根据 InstructGPT 的文章披露,当时 OpenAI 雇佣了约 40 名左右的标注人员来提供手工写的文字;这个数字在最近披露的报道中上升到了 1000 名左右。计算机领域有一个短语叫做 human in the loop,将一篇科研文章变成一个prototype,然后再将用户的体验、数据的回流、标注、再训练这个闭环做得非常精准,ChatGPT 在这一个领域当中体现出了高超的工程能力。

另外一个问题是,ChatGPT 为什么能够比其他的类似的聊天机器人更加不让人讨厌?

除了技术能力超群之外(ChatGPT 的会话质量的确超过之前的会话模型),我认为这和产品边界的定义是非常相关的。ChatGPT 的定位是很轻量级的“Chat”,所以它就算回答出错,也不像其他的产品(尤其是大厂的产品)那样让人讨厌,反而变成一种有趣的谈资。同时,最简的界面让人非常容易上手,“没事聊两句”也是一个不显得有科技产品的距离感的体验。甚至我家女儿也试图上去捉弄 ChatGPT:


 

(我其实觉得,如果有一个像 wx 聊天机器人这样的方式,也许可以进一步做病毒营销,但是 OpenAI 并没有相关的产品可以相互引流,就更显得产品力的强大。当然聊天机器人是不是会有其他各种内容限制,这是另一个话题了。)

工程和产品体验会给 ChatGPT 的下一代带来更大优势。试想,一亿人每个月在给 ChatGPT 生成对话数据训练下一代模型,这是现在任何一个研究院,包括一线大厂,所无法企及的。

ChatGPT带来更多的机会

这个话题稍微有一点被说烂了我就不多说了。我从浙江一个高中长大,30年前,学校采用的油印机是要用“蜡纸”的:老师们的一大技能就是在蜡纸上,用尖头的铁笔刻出手写的试卷来,然后卷到一个油印机的滚筒上面,油印机印的页数多了,蜡纸也就旧了,一张蜡纸能印个几百张,怎么刻字刻得足够深而不破,是核心技能。后来90年代末有了打印机复印机,老师们不再需要手工刻试卷,我听到过他们怀念当年刻字的经历,但没有听到谁想回到过去。有了更好的工具,为什么要回去呢?


 

从技术的角度讲,ChatGPT 依然是一种基于统计的方式(虽然神经网络不像当年的概率图模型、统计机器学习那么有明显的“统计”的色彩)来实现的机器学习算法。所以,它的能力也和场景的“常见程度”有关:只要是简单重复的人类劳动,它都能做得很好。从技术的角度举例子,冒泡排序写过一百遍,写出来很简单,AI 一问就会。让它写个更牛的自己出来... 抱歉,暂时还不行。

然后我们发现它写各种企业“战略”写得很不错。这是不是从一个角度体现出来,部分“战略”其实就是统计意义上的简单重复呢?之前有人开玩笑,说 xx 厂和 yy 厂和 zz 厂的 ppt 大图长得一模一样,只要把颜色调成红黄蓝当中的一种。这样的工作,只要有训练数据,当然 ChatGPT 能做得非常好。说笑归说笑,我觉得 ChatGPT 从一个大数据的角度让我们重新审视了“什么是创新” - 很多我们认为是创新的东西,也许并不是。

但是 ChatGPT 给真正的创新带来了更多的机会。一个广为人知的故事是,达芬奇在创作《岩间圣母》的时候,很多背景部分不是他画的 - 这些简单重复的地方就让他的助手画了。今天 ChatGPT 就是助手,当内容创作者能够花更少的时间做重复劳动的时候,创新会变得更多 - 这是历史上多次证明的。

聪明地设计 Infra

硅谷著名风投 A16Z 在最近一篇对于 AIGC 的文章当中提到那么一句话:“目前看基础设施提供商是这个市场当中最大的赢家”。

不过要做这个赢家,就要更加聪明地设计 infra 才行。AI 计算不同于传统上所说的“云计算”,而更加接近于我们所说的“高性能计算” HPC - 当你听见这个词语感觉我老学究的时候,且慢,听我道来。

云计算很多时候在关注资源的池化和虚拟化:

怎么把计算,存储,网络,从物理资源变成虚拟的概念,“批发转零售”;

如何在这种虚拟环境下把利用率做上去,或者说超卖;

怎么更加容易地部署软件,做复杂软件的免运维(比如说,容灾、高可用)等等,不一而足。

但是 AI 的计算不一样。对于 AI 而言,尤其是今天 AI 的训练:

并不要求特别强的虚拟化。一般训练会“独占”物理机,除了简单的例如建立虚拟网络并且转发包之外,并没有太强的虚拟化需求。

需要很高性能和带宽的存储和网络。例如,网络经常需要几百 G 以上的 RDMA 带宽连接,而不是常见的云服务器几 G 到几十 G 的带宽。

对于高可用并没有很强的要求,因为本身很多离线计算的任务,不涉及到容灾等问题。

没有过度复杂的调度和机器级别的容灾。因为机器本身的故障率并不很高(否则 GPU 运维团队就该去看了),同时训练本身经常以分钟级别来做 checkpointing,在有故障的时候可以重启整个任务从前一个 checkpoint 恢复。

也就是说,对于 AI 的用户而言而言,尤其是今天那么大规模的训练,性能和规模是第一位的,传统云服务所涉及到的一些能力,是第二位的。

这其实很像传统的高性能计算的领域的需求。实际上,在 2017 年的时候,我们在 Facebook 提出了一个概念叫做 return of MPI:用传统高性能计算的方式,来看待 AI 计算的问题。例如,与其使用更加“容灾”的异步通信等方式,不如启用高性能计算领域常见的MPI Allreduce / send / recv 算子等“老方法”,实现更高性能的分布式训练。2017 年,我在 Facebook 的团队和 FAIR 一起,将 Imag.NET 训练的速度降到了一个小时以内。

今天不少的 AI 软硬件设计,都依然透出着高性能计算的影子。例如,阿里云在 2022 年提出的飞天智算集群“灵骏”,通过 GPU 的高速互联以及轻量级的平台 PAI,来管理万卡级别的AI计算的需求;微软 Azure 在云上提供了这样一个专为高性能 AI 设计的机型:8xA100 GPU + 8x200G Infiniband。Meta 在 2022 年公布了自己万卡数量的科研集群 RSC:这些产品的设计都是明显为了高性能 AI 计算来提供的。


 

对于提供基础设施的供应商来说,AI 计算是一个新的机会,也是一个关键的时机,需要重新审视长期提供通用云服务而形成的思维模式。

AI 计算未来可期

本来想写得通用一些,但是一写就写得很技术。AI 领域永远不缺惊喜,原以为计算机视觉已经走到了尽头,忽然 AIGC 柳暗花明又一村;原以为 Stable Diffusion 已经审美疲劳,忽然 ChatGPT 又打开无数的应用。

最后没什么可说的了,作为一直战斗在 AI platform 一线的老兵,用 Richard Sutton的一句话来做结语:

The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin.

Richard Sutton: "The Bitter Lesson"

Bon voyage.

== Credits ==

题图: Unsplash

https://unsplash.com/@andyadcon

直升机图: Stanford University

蜡纸图: Taobao



Tags:ChatGPT   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
ChatGPT 应用商店?可能是一个万能应用程序!
OpenAI 在去年 11 月召开了一次开发者大会,首席执行官 Sam Altman 希望软件制造商在 ChatGPT 之上进行进一步的构建。OpenAI 表示,它将很快推出一个市场,开发人员和非技术人员...【详细内容】
2024-04-12  Search: ChatGPT  点击:(8)  评论:(0)  加入收藏
OpenAI 宣布向 ChatGPT 付费用户开放新 GPT-4 Turbo 模型
IT之家 4 月 12 日消息,OpenAI 今日宣布,新 GPT-4 Turbo 现已向付费 ChatGPT 用户开放。与 1 月份相比,新版本提高了写作、数学、逻辑推理和编码的能力。GPT-4 Turbo 可在 Chat...【详细内容】
2024-04-12  Search: ChatGPT  点击:(6)  评论:(0)  加入收藏
ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
新智元报道编辑:编辑部【新智元导读】OpenAI这份愚人节礼物,实在是太大了:今天起,ChatGPT不用注册,可以直接使用。用户狂欢,竞品颤抖,我们仿佛已经听到,谷歌搜索引擎这位巨人轰然倒...【详细内容】
2024-04-02  Search: ChatGPT  点击:(18)  评论:(0)  加入收藏
无需注册!OpenAI宣布放开ChatGPT使用限制
工智能初创公司OpenAI宣布,即日起用户无须注册即可开始使用ChatGPT的功能。OpenAI在最新公告中写道:“让ChatGPT等工具广泛可用,让人们能够体验到人工智能的好处,这是我们使命的...【详细内容】
2024-04-02  Search: ChatGPT  点击:(8)  评论:(0)  加入收藏
ChatGPT 突然放开了账户限制,面向所有人开放
大门终于打开。奥特曼 OpenAI 的旗舰产品 ChatGPT 突然宣布:将面向所有人开放,无论你有没有注册账户。从今天开始,访问 Chat.openai.com 将不再要求用户登录,用户将直接进入与 C...【详细内容】
2024-04-02  Search: ChatGPT  点击:(3)  评论:(0)  加入收藏
今天起,ChatGPT无需注册就能用了!
 来源:量子位    金磊 克雷西 发自 凹非寺  就在刚刚,OpenAI狠狠地open了一把:从今天起,ChatGPT打开即用,无需再注册帐号和登录了!  像这样,直接登录网站,然后就可以开启对...【详细内容】
2024-04-02  Search: ChatGPT  点击:(8)  评论:(0)  加入收藏
ChatGPT之父Altman两小时对谈,首聊GPT-5何时发布、llya去哪里了、Q*究竟是什么
Altman做客油管博主Lex Fridman科技博客 ,被追问了一个又一个辛辣的问题。长达两个小时的对谈,奥特曼从OpenAI宫斗、马斯克诉讼、Sora,一直聊到AGI与外星文明!本文重点梳理了长...【详细内容】
2024-03-20  Search: ChatGPT  点击:(9)  评论:(0)  加入收藏
ChatGPT主管最新访谈:未来AI和人类如何共处?
Peter Deng在最新访谈中表示:AI不会取代生产力,人类和AI只有合作才能释放真正潜力,ChatGPT比已知的更强大、最大的挑战在于理解用户需求。当地时间3月13日,OpenAI 消费产品副总...【详细内容】
2024-03-19  Search: ChatGPT  点击:(13)  评论:(0)  加入收藏
ChatGPT日耗电超50万度,大模型或带来“电荒”
未来两年内将由“缺硅”变为“缺电”,马斯克的预言可能正在变成现实。据《纽约客》杂志报道,OpenAI的热门聊天机器人ChatGPT每天可能要消耗超过50万千瓦时的电力,以响应用户的...【详细内容】
2024-03-11  Search: ChatGPT  点击:(34)  评论:(0)  加入收藏
OpenAI新功能:ChatGPT可调用自定义机器人,对话更高效!
近日,知名科技公司OpenAI推出了一项新的功能——“对话中调用(@)自定义聊天机器人”,让用户在对话中无缝切换不同领域的机器人。这一功能的出现,为用户带来了极大的便...【详细内容】
2024-02-02  Search: ChatGPT  点击:(55)  评论:(0)  加入收藏
▌简易百科推荐
对于微服务架构监控应该遵守的原则
随着软件交付方式的变革,微服务架构的兴起使得软件开发变得更加快速和灵活。在这种情况下,监控系统成为了微服务控制系统的核心组成部分。随着软件的复杂性不断增加,了解系统的...【详细内容】
2024-04-03  步步运维步步坑    Tags:架构   点击:(5)  评论:(0)  加入收藏
大模型应用的 10 种架构模式
作者 | 曹洪伟在塑造新领域的过程中,我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说,已经司空见惯,设计模式已成为程序员们的重...【详细内容】
2024-03-27    InfoQ  Tags:架构模式   点击:(16)  评论:(0)  加入收藏
哈啰云原生架构落地实践
一、弹性伸缩技术实践1.全网容器化后一线研发的使用问题全网容器化后一线研发会面临一系列使用问题,包括时机、容量、效率和成本问题,弹性伸缩是云原生容器化后的必然技术选择...【详细内容】
2024-03-27  哈啰技术  微信公众号  Tags:架构   点击:(12)  评论:(0)  加入收藏
DDD 与 CQRS 才是黄金组合
在日常工作中,你是否也遇到过下面几种情况: 使用一个已有接口进行业务开发,上线后出现严重的性能问题,被老板当众质疑:“你为什么不使用缓存接口,这个接口全部走数据库,这怎么能扛...【详细内容】
2024-03-27  dbaplus社群    Tags:DDD   点击:(15)  评论:(0)  加入收藏
高并发架构设计(三大利器:缓存、限流和降级)
软件系统有三个追求:高性能、高并发、高可用,俗称三高。本篇讨论高并发,从高并发是什么到高并发应对的策略、缓存、限流、降级等。引言1.高并发背景互联网行业迅速发展,用户量剧...【详细内容】
2024-03-13    阿里云开发者  Tags:高并发   点击:(8)  评论:(0)  加入收藏
如何判断架构设计的优劣?
架构设计的基本准则是非常重要的,它们指导着我们如何构建可靠、可维护、可测试的系统。下面是这些准则的转换表达方式:简单即美(KISS):KISS原则的核心思想是保持简单。在设计系统...【详细内容】
2024-02-20  二进制跳动  微信公众号  Tags:架构设计   点击:(38)  评论:(0)  加入收藏
详解基于SpringBoot的WebSocket应用开发
在现代Web应用中,实时交互和数据推送的需求日益增长。WebSocket协议作为一种全双工通信协议,允许服务端与客户端之间建立持久性的连接,实现实时、双向的数据传输,极大地提升了用...【详细内容】
2024-01-30  ijunfu  今日头条  Tags:SpringBoot   点击:(21)  评论:(0)  加入收藏
PHP+Go 开发仿简书,实战高并发高可用微服务架构
来百度APP畅享高清图片//下栽のke:chaoxingit.com/2105/PHP和Go语言结合,可以开发出高效且稳定的仿简书应用。在实现高并发和高可用微服务架构时,我们可以采用一些关键技术。首...【详细内容】
2024-01-14  547蓝色星球    Tags:架构   点击:(120)  评论:(0)  加入收藏
GraalVM与Spring Boot 3.0:加速应用性能的完美融合
在2023年,SpringBoot3.0的发布标志着Spring框架对GraalVM的全面支持,这一支持是对Spring技术栈的重要补充。GraalVM是一个高性能的多语言虚拟机,它提供了Ahead-of-Time(AOT)编...【详细内容】
2024-01-11    王建立  Tags:Spring Boot   点击:(128)  评论:(0)  加入收藏
Spring Boot虚拟线程的性能还不如Webflux?
早上看到一篇关于Spring Boot虚拟线程和Webflux性能对比的文章,觉得还不错。内容较长,抓重点给大家介绍一下这篇文章的核心内容,方便大家快速阅读。测试场景作者采用了一个尽可...【详细内容】
2024-01-10  互联网架构小马哥    Tags:Spring Boot   点击:(126)  评论:(0)  加入收藏
站内最新
站内热门
站内头条