您当前的位置:首页 > 电脑百科 > 人工智能

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

时间:2023-07-13 14:32:26  来源:IT之家  作者:

IT之家 7 月 13 日消息,外媒 Semianalysis 近日对 AI target=_blank class=infotextkey>OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型(Mixture of Experts)等具体的参数和信息。

▲ 图源 Semianalysis

外媒表示,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用混合专家模型来进行构建。

IT之家注:混合专家模型(Mixture of Experts)是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。

▲ 图源 Semianalysis

据悉,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1110 亿个参数,每次前向传递路由经过两个专家模型。

此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。

GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果,训练成本相当高,外媒表示,8x H100 也无法以每秒 33.33 个 Token 的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以 H100 物理机每小时 1 美元计算,那么一次的训练成本就高达 6300 万美元(约 4.51 亿元人民币)。

对此,OpenAI 选择使用云端的 A100 GPU 训练模型,将最终训练成本降至 2150 万美元(约 1.54 亿元人民币)左右,用稍微更长的时间,降低了训练成本。



Tags:GPT-4   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除。
▌相关推荐
IT之家 7 月 13 日消息,外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、to...【详细内容】
2023-07-13  Tags: GPT-4  点击:(0)  评论:(0)  加入收藏
一个prompt就能分析数据、创建图表、编辑文件、执行数学运算!一夜之间,无数打工人的岗位被颠覆了。今天,ChatGPT代码解释器测试版正式向所有Plus用户开放,这或许是GPT-4有史以来...【详细内容】
2023-07-09  Tags: GPT-4  点击:(13)  评论:(0)  加入收藏
7月7日,OpenAI在官网宣布,GPT-4 API全面开放使用。现所有付费API用户都可直接访问8K上下文的GPT-4,无需任何等待。图片来源:OpenAI官网GPT-4 API,全面开放使用OpenAI表示,GPT-4是...【详细内容】
2023-07-07  Tags: GPT-4  点击:(20)  评论:(0)  加入收藏
IT之家 6 月 28 日消息,在上个月的谷歌(Google) I / O 开发者大会上,谷歌公司首次透露了其正在开发的大型语言模型 Gemini。现据 Wired 报道,DeepMind 联合创始人兼 Google DeepM...【详细内容】
2023-06-28  Tags: GPT-4  点击:(26)  评论:(0)  加入收藏
新智元报道编辑:编辑部【新智元导读】谷歌DeepMind CEO Hassabis全新爆料:全新Gemini模型将结合进AlphaGo和大语言模型,成本预计是数千万美元,甚至数亿。谷歌,是真的破釜沉舟了。...【详细内容】
2023-06-27  Tags: GPT-4  点击:(23)  评论:(0)  加入收藏
尚恩 发自 凹非寺量子位 | 公众号 QbitAI你敢信,一份由AI写的融资企划书,竟然引发VC疯狂追捧!甚至有VC投资人当场承诺,愿意给这份由GPT-4生成的企划书直接投资。又一个用GPT赚钱...【详细内容】
2023-06-19  Tags: GPT-4  点击:(36)  评论:(0)  加入收藏
西风 发自 凹非寺量子位 | 公众号 QbitAIGPT-4官方使用指南炸裂登场啦!你没听错,这次不需要自己做笔记了,OpenAI亲自帮你整理了一份。据说汇聚了大伙儿6个月的使用经验,你、我、...【详细内容】
2023-06-12  Tags: GPT-4  点击:(60)  评论:(0)  加入收藏
新智元报道编辑:拉燕【新智元导读】UC伯克利华人博士生搞了个Gorilla,可以灵活调用各种API,性能超过GPT-4。继羊驼之后,又来了个以动物命名的模型,这次是大猩猩(Gorilla)。虽说目前...【详细内容】
2023-06-08  Tags: GPT-4  点击:(59)  评论:(0)  加入收藏
【引言】近年来,人工通用智能(AGI)和GPT-4的发展取得了显著进步,为普通人的生活带来了巨大的机遇。GPT-4是OpenAI推出的最新一代大型语言模型,具有强大的自然语言处理能力。在职...【详细内容】
2023-05-28  Tags: GPT-4  点击:(53)  评论:(0)  加入收藏
  Windows的GPT时刻到来,变革PC行业。  作者 | 智东西编辑部  今日凌晨,Windows迎来了GPT-4时刻!  在2023微软Build大会上,微软总裁萨蒂亚·纳德拉(Satya Nadella...【详细内容】
2023-05-24  Tags: GPT-4  点击:(59)  评论:(0)  加入收藏
▌简易百科推荐
IT之家 7 月 13 日消息,外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、to...【详细内容】
2023-07-13    IT之家  Tags:GPT-4   点击:(0)  评论:(0)  加入收藏
新浪科技讯 7月13日上午消息,京东云峰会上推出了言犀大模型,京东科技智能服务与产品部总裁何晓冬介绍道,言犀大模型有以下三大特征:1. 产业原生:AI能力从京东优质的产业场景与数据...【详细内容】
2023-07-13    新浪科技  Tags:京东言犀大模型   点击:(2)  评论:(0)  加入收藏
作者: 刘晓洁  [ 据科技部新一代人工智能发展研究中心5月底发布的《中国人工智能大模型地图研究报告》,中国10亿以上参数规模的大模型已经发布了79个。 ]刚过去的世界人工智...【详细内容】
2023-07-13    第一财经  Tags:大模型   点击:(0)  评论:(0)  加入收藏
作者 | 李冬梅ChatGPT 的诞生打响了现代 AI 军备竞赛的第一枪。以 GPT-4、ChatGTP、Bard 等为代表的大语言模型在全球各界引起了广泛关注。结合 ChatGPT 的底层技术逻辑,未来...【详细内容】
2023-07-12    InfoQ  Tags:智能客服   点击:(9)  评论:(0)  加入收藏
克雷西 发自 凹非寺量子位 | 公众号 QbitAI用ChatGPT最新推出的代码解释器,5分钟就能做出一款游戏!这可不是乱说的,有位博主已经放出了一段DEMO:这是一款以太空为背景,让飞船打击...【详细内容】
2023-07-12  量子位    Tags:ChatGPT   点击:(9)  评论:(0)  加入收藏
图片来源@视觉中国文|市值观察,作者|文雨,编辑|小市妹技术推动,资本热潮,政策扶持,人形机器人这把火越烧越旺,太平洋两岸的两个超级大国已经为此展开了新的技术竞赛。在西八区,马斯克...【详细内容】
2023-07-12    钛媒体APP  Tags:机器人   点击:(7)  评论:(0)  加入收藏
几天前,谷歌突然更新了隐私政策,明确表示要用网上所有的公开数据,来训练自家的 AI 模型。也就是说,根据新政策,你在网上公开发布的任何信息都有可能被谷歌抓取,包括但不限于你发的...【详细内容】
2023-07-12  差评    Tags:AI   点击:(10)  评论:(0)  加入收藏
新浪科技讯 北京时间7月12日早间消息,据报道,谷歌(117.71, 0.84, 0.72%)之前一直在为“Z世代”(1995至2009年出生的)用户开发一款人工智能移动聊天机器人应用,并在其中配以互动数...【详细内容】
2023-07-12    新浪科技  Tags:Z世代   点击:(10)  评论:(0)  加入收藏
究竟是什么催生了人类的重大进步?OpenAI公司研发的ChatGPT已经成为一举一动都备受全球瞩目的重大创新事件,甚至被称为工业革命以来最了不起的发明之一。但这个伟大的发明是怎...【详细内容】
2023-07-12  泉果视点  新浪网  Tags:ChatGPT   点击:(8)  评论:(0)  加入收藏
Fast Reading1)有的改编短剧项目,90%以上的工作已经可以通过AI完成。有人等着风口到来,有人害怕被时代抛弃。2)对制片公司而言,AI可以提升效率;但对数量庞大的一线编剧来说,这未必...【详细内容】
2023-07-12    雪豹财经社  Tags:AI   点击:(6)  评论:(0)  加入收藏
站内最新
站内热门
站内头条