您当前的位置:首页 > 电脑百科 > 人工智能

AI世界的新难题:互联网的信息不够用了!

时间:2024-04-02 10:05:04  来源:  作者:硬AI

高质量数据的紧缺正成为AI发展的重要障碍。

4月1日,据媒体报道,随着OpenAIgoogle等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们训练更先进的AI系统。

科技巨头的AI系统,比如能与人类聊天的ChatGPT,是通过学习网上的信息变得越来越聪明的。但现在,高质量、有用的信息日益紧缺,同时,一些网站开始限制AI公司访问他们的数据。据业界一些高管和研究人员表示,AI行业对高质量文本数据的需求可能在两年内超过供应,这将可能减缓AI技术的发展速度。

面对信息不足的问题,AI公司正在尝试各种方法来寻找新的信息源。比如OpenAI正在考虑用YouTube视频里的对话来训练它们的下一代智能模型GPT-5。有的公司甚至创造合成数据来学习,尽管这种方法被许多研究人员认为可能会导致系统发生严重故障,但不失为克服数据短缺的一种潜在途径。

据悉,这些努力大多保密进行,因为找到有效的解决方案可能成为企业在激烈竞争中的关键优势。随着数据需求不断增长,找到新的学习材料、与数据所有者的合作,让AI系统变得更加聪明,就成了这个行业的重要备战区。

OpenAI的GPT-5面临10万亿到20万亿tokens的数据短缺

AI语言模型的构建依赖于从互联网上收集的大量文本数据,这些数据包括科学研究、新闻文章、维基百科条目等。这些材料被分解成“tokens”,tokens可以是完整的单词或单词的一部分。AI模型通过分析和理解这些tokens之间的关系和模式,学会了如何生成流畅、自然的语言,从而能够回答问题、撰写文章甚至创作诗歌。

模型的能力在很大程度上取决于它训练的数据量。通常情况下,数据越多,模型的性能就越好,因为它有更多的例子来学习不同的语言用法和复杂性。

OpenAI通过为其GPT系列模型提供海量训练数据,不断提升性能,借此成为世界顶尖AI公司。这展示了大数据训练对于AI发展的重要性。

但是,随着GPT-4模型的不断扩大,OpenAI对数据的需求也在急剧增长。Epoch研究所的AI研究员Pablo Villalobos估计,GPT-4训练涉及的数据量高达12万亿tokens,而未来模型,如GPT-5,可能需要60万亿到100万亿tokens。因此,即便是利用所有可用的高质量语言和图像数据,研发GPT-5仍可能面临10万亿到20万亿tokens的数据短缺。至于如何弥补这一巨大的数据缺口,目前尚无明确方案。

据媒体报道,为应对数据短缺挑战,AI公司正在尝试各种方法来寻找新的信息源。Meta创始人扎克伯格近期强调,公司通过Facebook和Instagram等平台拥有的大量数据,为其AI研发提供了重要优势。扎克伯格表示,Meta能够利用网络上数以百亿计的公开共享图片和视频,这些数据的规模超过了大多数常用数据集,尽管其中高质量数据的比例尚不明确。

而OpenAI则考虑使用其自动语音识别工具Whisper转录的高质量视频和音频示例。此外,OpenAI还在考虑建立一个数据市场,以评估每个数据点对模型训练的贡献并据此向内容提供者支付费用,这一创新想法也引起了Google的关注。

Epoch研究所预测AI数据短缺危机将推迟至2028年

两年前,Villalobos和他的同事写道,到2024年年中,对高质量数据的需求超过供给的可能性为50%,到2026年发生这种情况的可能性为90%。自那以后,他们变得更加乐观,在AI研究员Pablo Villalobos及其团队的审慎评估下,新的预期显示,这种短缺风险将延迟至2028年。

这项乐观的更新基于对当前数据质量和可用性的深刻洞察。Villalobos指出,互联网上的绝大多数数据并不适合作为AI训练材料。在无尽的信息流中,只有一小部分数据(远低于先前预计)能对AI模型的增长和(4.81, 0.03, 0.63%)发展做出实质性贡献。

同时,各大社交媒体平台和新闻出版商已开始限制其数据被用于AI训练。他们担心如果数据被自由用于AI训练,可能导致内容创造者和平台本身失去应得的经济回报。

此外,普罗大众对于个人隐私的保护意识显著提升,许多人对于将私人对话如iMessage中的聊天记录提供给AI训练的意愿较低,人们可能担心他们的隐私可能会受到侵犯。

最近,一位女记者就OpenAI最新模型Sora的训练数据向CTO Murati提问时,Murati未能明确回答,这引发了业界对OpenAI管理层对于训练数据来源的关注度的质疑。这一事件触发了更广泛的讨论,关于公共领域数据的所有权问题——我们在网络上发布的内容,究竟是属于个人私密还是公共共享的资产?

因此,这些因素共同导致了数据获取的困境。随着用户和监管机构对数据使用的监控趋严,研究者们必须在保护隐私与数据采集之间找到新的均衡。



Tags:AI   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
谷歌搜索史上最大变革!考虑对AI搜索收费
快科技4月7日消息,据国外媒体报道,谷歌正计划对由生成式人工智能驱动的新高级功能收费,这将是谷歌搜索业务历史上最大的一次变革。自2000年以来,谷歌的搜索产品一直依靠广告盈利...【详细内容】
2024-04-08  Search: AI  点击:(5)  评论:(0)  加入收藏
生成式AI:云计算的关键之战
“美国有一家铁路公司,过去两年我们一直在交谈。终于,他们这次打电话给我们,希望迅速推进上云迁移。”近日,亚马逊云科技全球客户技术支持与服务副总裁Uwem Ukpong向记者谈及企...【详细内容】
2024-04-08  Search: AI  点击:(4)  评论:(0)  加入收藏
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08  Search: AI  点击:(5)  评论:(0)  加入收藏
AI程序员上岗 垂类大模型应用迎来井喷期
能自动写代码的“AI员工”、逐渐告别不够好用的智能客服,无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业,IT、工业生产、金融、服务...【详细内容】
2024-04-08  Search: AI  点击:(3)  评论:(0)  加入收藏
当“机器人”有了“AI大脑” 人形机器人时代来了吗
数智风向标当“机器人”有了“AI大脑”​人形机器人时代来了吗简单明了的口令下达后,机器人便开始搬箱子、运小球,在各类不同的地形行走……这些身上布满芯片和传...【详细内容】
2024-04-08  Search: AI  点击:(2)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07  Search: AI  点击:(6)  评论:(0)  加入收藏
AI程序员上岗 垂类大模型应用迎来井喷期
能自动写代码的“AI员工”、逐渐告别不够好用的智能客服,无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业,IT、工业生产、金融、服务...【详细内容】
2024-04-07  Search: AI  点击:(2)  评论:(0)  加入收藏
首个AI程序员上岗,码农们暂且不必过度焦虑
“AI程序员上岗”或许是噱头,但淘汰焦虑仍然近在咫尺,需要积极面对。全文2418字,阅读约需7分钟 撰稿 / 马尔文(媒体人)编辑 / 何睿 校对 / 张彦君▲随着相关技术的突飞猛进,AI也在...【详细内容】
2024-04-07  Search: AI  点击:(3)  评论:(0)  加入收藏
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07  Search: AI  点击:(4)  评论:(0)  加入收藏
用AI“复活”逝者,伦理和法律的边界在哪?专家解读
AI数字“复活”,您听说过吗?当然,这里的复活是加引号的,简单来说,就是指用逝者生前的照片、视频、文字记录等历史数据,使用人工智能技术、数字化模拟再现已故人物的声音、影像、行...【详细内容】
2024-04-07  Search: AI  点击:(3)  评论:(0)  加入收藏
▌简易百科推荐
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(1)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(2)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(6)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
AI干掉声优?音频大模型追逐“图灵时刻”
七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不...【详细内容】
2024-04-03    第一财经网  Tags:AI   点击:(5)  评论:(0)  加入收藏
生成式人工智能有哪些新趋势?
相较于去年,当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台,只要是以搜索结果为导向的内容,都会出现它的身影。但其实,人工智能的应用场...【详细内容】
2024-04-03  品谈教师帮    Tags:人工智能   点击:(6)  评论:(0)  加入收藏
AI世界的新难题:互联网的信息不够用了!
高质量数据的紧缺正成为AI发展的重要障碍。4月1日,据媒体报道,随着OpenAI、Google等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们...【详细内容】
2024-04-02  硬AI    Tags:AI   点击:(6)  评论:(0)  加入收藏
今天起,ChatGPT无需注册就能用了!
 来源:量子位    金磊 克雷西 发自 凹非寺  就在刚刚,OpenAI狠狠地open了一把:从今天起,ChatGPT打开即用,无需再注册帐号和登录了!  像这样,直接登录网站,然后就可以开启对...【详细内容】
2024-04-02    量子位   Tags:ChatGPT   点击:(7)  评论:(0)  加入收藏
AI时代,面对死亡有了第二种选择?
今年春节期间,罗佩玺瞒着妈妈用AI技术“复活”了外婆,她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年,妈妈和外婆终于又“见面”了,这是她送给妈妈的生日礼物。收...【详细内容】
2024-04-02    中国青年报  Tags:AI时代   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条