您当前的位置:首页 > 电脑百科 > 人工智能

AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料

时间:2024-04-09 10:13:00  来源:财联社  作者:

财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款、无视互联网信息的使用规则,只为了让自家的产品更加先进一些。

《纽约时报》在本周末刊发的调查报道中,揭露了OpenAI、谷歌、Meta等公司为了获取训练语料所采取的一些“走捷径”措施,同时也展现了整个行业迫在眉睫的困境。

美国科技巨头各走“捷径”

2021年末,正在训练GPT-4的OpenAI遇到了一个棘手的问题,公司已经耗尽了互联网上所有可靠的英文文本资源,而他们需要更多、更大规模的数据来训练更强大的模型。

为了处理这个问题,OpenAI的Whisper语音识别工具诞生了——用来转录谷歌旗下视频平台YouTube的视频音频,生成大量的对话文本。

报道称,包括OpenAI总裁布洛克曼在内的团队总共转录了超过一百万小时的Youtube视频。随后这些资料被输入到GPT-4系统中,并成为聊天机器人(10.850, 0.00, 0.00%)ChatGPT的基础。

根据谷歌的政策,禁止用户将平台上的视频用于“独立”应用,同时禁止通过任何自动化手段(爬虫等)访问其视频。

有趣的是,在OpenAI偷偷扒Youtube视频时,谷歌也在转录自家流媒体平台的内容训练大模型——同样冒着侵犯版权的风险。正因如此,虽然有谷歌员工知道OpenAI在这么干,也没有出手阻止。因为一旦谷歌对OpenAI提出抗议,也有可能“引火烧身”到自己身上。

对于是否采用Youtube视频训练AI的询问,OpenAI方面回应称,他们使用了“多个来源”的数据。谷歌发言人Matt Bryant则表示,公司对OpenAI的行为一无所知,且禁止任何人“未经授权抓取或下载Youtube视频”。不过Bryant也表示,公司只会在有明确法律、技术依据时才会采取行动。

谷歌自家的条款,则允许平台使用这些视频开发视频平台的新功能,但这样的措辞是否意味着谷歌能用这些资料开发商用AI,也存在不小的疑问。

与此同时,Meta的内部会议纪要显示,工程师和产品经理讨论了购买美国大型出版商Simon & Schuster以获取长文本资料的计划,另外他们还讨论了从互联网上收集受版权保护的内容,并表示“与出版商、艺术家、音乐家和新闻行业谈判授权需要的时间太多了”。

据悉,有Meta的高管表示,OpenAI似乎正在使用受版权保护的材料,所以公司也可以遵循这个“市场先例”。

更显性的变化是,谷歌去年修改了服务条款。根据内部资料显示,推动隐私政策变化的动机之一,包括允许谷歌利用公开的谷歌文档、谷歌地图上的餐厅评论,以及更多在线资料开发AI产品。最终谷歌赶在美国国庆节(7月4日)放假前的7月1日发布了修改后的隐私条款,将“使用公开信息训练AI模型”首次纳入其中。

Bryant回应称,公司不会在没有用户“明确许可”的情况下使用他们的谷歌文档来训练AI,这里指的是自愿参与的实验性功能体验计划。

即便如此还是不够

正因为这些操作,近些年来伴随着人们对AI能力的惊叹,越来越多的版权方也开始意识到自己的数据被偷偷拿走训练AI了。包括《纽约时报》、一些电影制作人和作家已经将这些科技公司告上法庭,美国著作权局也正在制定版权法在AI时代的适用指南。

问题在于,即便一些作家、制片人将科技公司的行为称为“美国史上最大盗窃案”,科技公司用来发展下一代AI的数据依然还是不够。

2020年初,约翰霍普金斯大学的理论物理学家(现Anthropic首席科学官)Jared Kaplan发布了一篇论文,明确表示训练大语言模型用的数据越多,表现就会越好。自那以后,“规模就是一切”成为了人工智能行业的信条。

2020年11月发布的GPT-3包含约3000亿个Token的训练数据。2022年,谷歌DeepMind对400个人工智能模型进行测试,其中表现最好的模型(之一),一个名为Chinchilla的模型用了1.4万亿个Token的数据。到2023年,中国科学家开发的Skywork大模型在训练中使用了3.2万亿个英文和中文Token,谷歌PaLM 2的训练数据量则达到3.6万亿个Token。

研究机构 Epoch直白地表示,现在科技公司使用数据的速度已经超过数据生产的速度,这些公司最快会在2026年就耗尽互联网上的高质量数据。

面对这样的问题,奥尔特曼已经提出了一种解决方法:像OpenAI这样的公司,最终会转向使用AI生成的数据(也被称为合成数据)来训练AI。这样开发人员在创建愈发强大的技术同时,也会减少对受版权保护数据的依赖。

目前OpenAI和一系列机构也正在研究使用两个不同的模型,能否共同生成更有用、更可靠的合成数据——一个系统产生数据,另一个系统对信息进行评判。当然,这种技术路径是否可行,目前仍存争议。

前 OpenAI 研究员Jeff Clune认为,这些AI系统所需的数据就像是穿越丛林的路径,如果这些公司只是在合成数据上训练,AI可能会在丛林里迷失。



Tags:AI产业   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09  Search: AI产业  点击:(0)  评论:(0)  加入收藏
英伟达2023春季GTC:AI产业的“iPhone时刻”来了 应用模型已能自主定制
当地时间周二,英伟达举办2023年春季GTC大会,黄仁勋穿着标志性皮夹克,向开发者披露最新的硬件和AI应用软件进展。在过去十年里,AI产业经历了历史性的飞跃。从2012年卷积神经网络A...【详细内容】
2023-03-22  Search: AI产业  点击:(151)  评论:(0)  加入收藏
AI产业链深度分析
人工智能作为第四次工业革命的重要抓手之一,已经成为各国科技领域争夺的焦点。中美两国在该领域各有千秋,竞争日趋激烈。国内人工智能政策环境较好,产业基础初步具备,市场需求十...【详细内容】
2022-05-26  Search: AI产业  点击:(395)  评论:(0)  加入收藏
▌简易百科推荐
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(0)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(2)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(2)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(5)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
AI干掉声优?音频大模型追逐“图灵时刻”
七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不...【详细内容】
2024-04-03    第一财经网  Tags:AI   点击:(5)  评论:(0)  加入收藏
生成式人工智能有哪些新趋势?
相较于去年,当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台,只要是以搜索结果为导向的内容,都会出现它的身影。但其实,人工智能的应用场...【详细内容】
2024-04-03  品谈教师帮    Tags:人工智能   点击:(6)  评论:(0)  加入收藏
站内最新
站内热门
站内头条