您当前的位置:首页 > 新闻资讯 > 科技

不依赖token,字节级模型来了!直接处理二进制数据

时间:2024-03-12 10:25:10  来源:量子位  作者:

不依赖token,字节级模型来了!直接处理二进制数据

来源:华尔街见闻 量子位

bGPT显著提高了处理大规模数字数据序列的效率和可扩展性。

最新GPT,不预测token了。

微软亚研院等发布bGPT,仍旧基于Transformer,但是模型预测的是下一个字节(byte)。

通过直接处理原生二进制数据,bGPT将所有输入内容都视为字节序列,从而可以不受限于任何特定的格式或任务。

能预测CPU行为,准确率超过99.99%;还能直接模拟MIDI——一种音乐传输和存储的标准格式。

研究团队认为,传统的深度学习往往忽视了字节——数字世界的构建基石。

不论是信息的形式还是操作,都是通过二进制格式编码和处理的。字节构成了所有数据、设备和软件的基础,从计算机处理器到我们日常使用的电子产品中的操作系统。

这篇论文的标题清晰地指出了其目标:

模拟CPU行为准确率超99.99%

bGPT通过字节级处理,不仅能够应用于常规的AI生成和理解任务,还能处理更多非传统应用。

例如,它能够直接模拟MIDI——一种音乐传输和存储的标准格式,之前的研究由于MIDI的二进制本质而避免了直接对这类数据的建模。

但bGPT天生适合此类任务。它能够准确模拟符号音乐数据转换算法,在将ABC记谱法转换为MIDI格式时,达到极低的错误率(0.0011 BPB)。

在模拟CPU行为方面,bGPT展现出超过99.99%的准确率。这些实验显示了bGPT在处理原生二进制数据方面的强大能力和可扩展性。

bGPT还展示了在处理诸如文本、图像和音频传统媒体文件的生成/分类任务上的潜力,而且不需要任何针对特定模态的定制。

研究团队训练了一个大约有100M参数的bGPT,根据论文中的实验结果,bGPT可以与同样规模的文本模型(GPT-2)、视觉模型(ViT)和音频模型(AST)在各自的模态下有着可比的性能。

字节到块策略:拓展序列建模长度

在处理数字数据时,bGPT代表了一次重要的进步。

因为字节的粒度非常细,处理的字节序列通常较长,这对基于Transformer的传统模型来说是一个挑战。由于自注意机制的复杂度是二次方的,处理长序列的效率和可扩展性受到了限制。

bGPT的研发团队此前在音乐AI领域推出了CLaMP项目,并因此在ISMIR 2023上获得了最佳学生论文奖。

基于这项成果,bGPT采取了一种“字节到块(patch)”的转化方法。这个方法不仅极大提升了数据处理效率,还让长序列数据的处理和扩展变得更加简便。

bGPT包含三个关键组成部分:

线性投影层:通过线性投影将每个字节块转化为密集向量表示,既保留了关键信息,又降低了维度。

块级解码器:顺序处理块的embeddings以预测下一个块的特征,使用自回归机制学习字节序列的整体结构。

字节级解码器:根据块级解码器的预测特征来预测每个块内的字节序列,这一过程独立于每个块进行,依据当前块的特征表示。

bGPT提供了一种有前景的解决方案来应对传统模型在处理字节级数据时面临的挑战,显著提高了处理大规模数字数据序列的效率和可扩展性。

拓宽边界:bGPT与未来数字世界的无限潜力

尽管bGPT展现出巨大的潜力,但其也存在一定的局限性和改进空间。

目前,bGPT只能处理不超过8KB的数据序列,对于需要生成大量数据的现代应用来说,这一容量显然不够。这一局限主要由于训练和部署这类模型需要巨大的计算资源需求。

为了推进bGPT的实用性和适用范围,未来的研究将专注于开发更高效的算法和利用硬件进步以降低计算成本,使bGPT能够更加经济高效地处理更大规模的数据序列,从而拓宽其应用前景。

在探讨字节模型未来的话题中,来自世界各地的网友们已经提出了一系列脑洞。

他们探讨了在裸机上运行纯粹的神经网络,以取代操作系统执行命令的前景,或者利用网络修剪和自我学习来优化连接,使得超大规模网络具备自我重构的能力。

虽然实现这些目标需要时间,但bGPT有望实现将所有数据以字节形式输入,通过超大规模自我重构网络处理后再以字节形式输出的终极目标。

或许,在探索bGPT能力的边界时,想象力才是唯一的限制。

长期来看,bGPT展示的字节模型在推动人工智能进步方面展现了两大巨大潜能。

首先,它有望实现一个统一模型,将计算机中的所有数据整合起来,为实现真正的通用人工智能(AGI)迈出关键一步。

其次,bGPT推动了将AI作为操作系统(LLM OS)的概念,即利用这种字节模型作为核心,直接与文件、软件及底层硬件数据进行深度交互。

这不仅与Andrej Karpathy的AI愿景不谋而合,更重要的是,它开启了使用AI模拟数字世界各种层面的可能性——从精确模拟CPU操作到系统级软件的行为模拟,bGPT的能力远超传统界限。通过这种方式,bGPT有望成为数字世界的全面模拟器,探索和理解从基础硬件到复杂系统级软件操作的每一个角落。

单凭对计算机文本数据的深入建模,我们已经见证了ChatGPT如何引发社会的广泛关注。

然而,文本数据在数字世界中海量数据的宏观图景里,不过只是冰山一角而已。想象一下,如果我们能够利用计算机中存储的所有形式的数据——无论是文本、图像、音频,还包括更复杂的二进制数据,乃至软件、操作系统和硬件本身的信息——来训练模型,能否创造出一个更加深入理解和精确模拟数字世界各个层面的模型?

bGPT的代码和模型已开源,如果你对探索字节级模型感兴趣,可以尝试在自己的数据集上使用bGPT进行训练,大胆探索它的潜能。

本文来源:量子位,原文标题:《不依赖token,字节级模型来了!直接处理二进制数据》



Tags:token   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
如何使用免费网络安全工具Canary Tokens查明黑客何时访问了您的文件?
译者 | 布加迪审校 | 重楼担心您的个人文件被黑客窃取吗?Canary Tokens是一款免费且易于使用的工具,可以快速部署。如果黑客打开您的文件,它就会通知您。什么是Canary Tokens?Ca...【详细内容】
2024-03-26  Search: token  点击:(13)  评论:(0)  加入收藏
不依赖token,字节级模型来了!直接处理二进制数据
不依赖token,字节级模型来了!直接处理二进制数据来源:华尔街见闻 量子位bGPT显著提高了处理大规模数字数据序列的效率和可扩展性。最新GPT,不预测token了。微软亚研院等发布bGPT...【详细内容】
2024-03-12  Search: token  点击:(12)  评论:(0)  加入收藏
关于“Cookie、Session、Token”彻底懂了
Cookie、Session、token的发展历程随着互联网的发展,身份验证和用户管理变得愈发重要,而Cookie、Session和Token便是这一领域发展的关键里程碑。综合而言,这三者的发展历程既是...【详细内容】
2023-12-11  Search: token  点击:(188)  评论:(0)  加入收藏
jwt与token+redis,哪种方案更好用?
在选择 JWT 与 Token+Redis 时,系统的具体需求和设计目标将是决定性因素。这两种方案都有各自的优缺点,适用于不同的场景。JWT 方案: 优点:无状态性:后端不需要存储 Token,减轻了...【详细内容】
2023-12-03  Search: token  点击:(18)  评论:(0)  加入收藏
解读大模型(LLM)的token
当人们谈论大型语言模型的大小时,参数会让我们了解神经网络的结构有多复杂,而token的大小会让我们知道有多少数据用于训练参数。正像陆奇博士所说的那样,大型语言模型为从文本...【详细内容】
2023-10-06  Search: token  点击:(403)  评论:(0)  加入收藏
只有理解Token和内存,才能更好掌握ChatGPT!
作者 | Rusell Kohn编译 | 言征 ChatGPT 等大型语言模型 (LLM) 已经改变了 AI 格局,了解其复杂性对于充分发挥其潜力至关重要。这篇短文将重点讨论大语言模型中的Token限制和...【详细内容】
2023-08-21  Search: token  点击:(288)  评论:(0)  加入收藏
碾压LLaMA,「猎鹰」彻底开源!400亿参数,万亿token训练,霸榜Hugging Face
新智元报道编辑:润 拉燕【新智元导读】来自阿联酋的免费商用开源大模型登顶Hagging Face排行榜,AI大模型创业者的春天就这样到来了。大模型时代,什么最重要?LeCun曾经给出的答案...【详细内容】
2023-06-02  Search: token  点击:(98)  评论:(0)  加入收藏
将26个token压缩成1个,新方法极致节省ChatGPT输入框空间
进入正文之前,先考虑一下像 ChatGPT 这样的 Transformer 语言模型(LM)的 prompt: 随着每天产生数百万用户和查询,ChatGPT 使用自注意力机制对 prompt 进行反复编码,其时间和内存...【详细内容】
2023-05-08  Search: token  点击:(242)  评论:(0)  加入收藏
无感知刷新Token
引言在前后端分离的应用中,使用Token进行认证是一种较为常见的方式。但是,由于Token的有效期限制,需要不断刷新Token,否则会导致用户认证失败。为了解决这个问题,可以实现无感知...【详细内容】
2023-04-04  Search: token  点击:(235)  评论:(0)  加入收藏
一个接口优雅的实现 Spring Cloud OAuth2 自定义token返回格式
大家好,我是不才陈某~最近读者朋友针对Spring Security oauth2.0 想要陈某补充一些知识,如下: 今天这篇文章就来回答其中一个问题:如何自定义token的返回格式?问题描述Spring Se...【详细内容】
2023-01-07  Search: token  点击:(275)  评论:(0)  加入收藏
▌简易百科推荐
谷歌搜索史上最大变革!考虑对AI搜索收费
快科技4月7日消息,据国外媒体报道,谷歌正计划对由生成式人工智能驱动的新高级功能收费,这将是谷歌搜索业务历史上最大的一次变革。自2000年以来,谷歌的搜索产品一直依靠广告盈利...【详细内容】
2024-04-08    快科技  Tags:谷歌搜索   点击:(5)  评论:(0)  加入收藏
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08    环球网  Tags:AI   点击:(5)  评论:(0)  加入收藏
当“机器人”有了“AI大脑” 人形机器人时代来了吗
数智风向标当“机器人”有了“AI大脑”​人形机器人时代来了吗简单明了的口令下达后,机器人便开始搬箱子、运小球,在各类不同的地形行走……这些身上布满芯片和传...【详细内容】
2024-04-08    中国青年报  Tags:机器人   点击:(2)  评论:(0)  加入收藏
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07    IT之家  Tags:OpenAI   点击:(4)  评论:(0)  加入收藏
量子计算会和经典计算一样融入人们的日常生活
作为2024中国网络媒体论坛打造的创新活动之一,“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场,本源量子计算科技(合肥)股份有限公司(以下简称“...【详细内容】
2024-04-03    人民网  Tags:量子计算   点击:(8)  评论:(0)  加入收藏
ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
新智元报道编辑:编辑部【新智元导读】OpenAI这份愚人节礼物,实在是太大了:今天起,ChatGPT不用注册,可以直接使用。用户狂欢,竞品颤抖,我们仿佛已经听到,谷歌搜索引擎这位巨人轰然倒...【详细内容】
2024-04-02    新智元  Tags:ChatGPT   点击:(7)  评论:(0)  加入收藏
谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
IT之家 4 月 2 日消息,根据华尔街日报报道,谷歌为了结追溯到 2020 年的集体诉讼案,近日同意删除通过 Chrome 浏览器“无痕(Incognito)模式”下收集的用户数据。这起诉讼原告认为,...【详细内容】
2024-04-02    IT之家  Tags:Chrome   点击:(7)  评论:(0)  加入收藏
哥伦比亚大学华人开发「人脸机器人」,照镜子自主模仿人类表情超逼真
【新智元导读】OpenAI 机器人理解力虽强,却无法进行非语言交流。最近,哥伦比亚大学华人团队打造了全新的机器人 Emo,不仅可以提前预测和模拟人类表情,还可以进行眼神交流。此前,...【详细内容】
2024-04-01    IT之家  Tags:哥伦比亚   点击:(17)  评论:(0)  加入收藏
谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录
IT之家 3 月 28 日消息,谷歌近日对其账户登录页面进行了重大更新,现在能够在用户登录谷歌账户时,使用 Windows Hello 作为身份验证方法。使用通行密钥,用户将不再局限于使用密码...【详细内容】
2024-03-29    IT之家  Tags:谷歌服务   点击:(15)  评论:(0)  加入收藏
GPT商店热度不尽人意 仅用在写论文和炒股票上较受欢迎
财联社3月28日讯(编辑 赵昊)今年1月,OpenAI推出了定制聊天机器人商店“GPTs”,以期为业务增添新的动力。但两个多月后,GPTs的吸引力仍然有限,很难达到公司CEO山姆·奥尔特曼...【详细内容】
2024-03-29    财联社  Tags:GPT   点击:(13)  评论:(0)  加入收藏
站内最新
站内热门
相关头条
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
  • · 瘫痪8年小哥植入马斯克脑机接口,狂打8小时「文明6」!Neuralink首个人类植入者直播来了
  • · 英伟达“算力核弹”强在哪里?
  • · AI大模型之争远未落幕
  • · 世界首款!英伟达重磅发布人形机器人模型
  • · 全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场
  • · 真“Open ” AI?马斯克旗下大模型Grok宣布开源:参数量全球最大
  • · 全球首位AI程序员诞生 人类程序员会失业吗?
  • · 谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量
  • · 英伟达、微软等巨头“抱团”,AI有望助推6G时代到来 国内产业如何接招?
  • · OpenAI Sora已开放对外申请 网友爆料:可能还有其它重磅产品发布
  • · 周鸿祎再谈Sora:真正给人工智能补上了“眼睛”
  • · Sora爆火超100小时:美国狂“卷”算力,国内则卖 AI 课程“捞金”一年5000万|钛媒体AGI
  • · 爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
  • · “AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!
  • · 从居家到工作,CES 2024上演 AI硬件大秀
  • · OpenAI新年头号重磅!GPT Store上线,企业客户新品也来了
  • 站内头条