您当前的位置:首页 > 电脑百科 > 人工智能

谷歌泄密文件:AI大战,谷歌没有护城河,OpenAI也没有

时间:2023-05-06 09:31:57  来源:华尔街见闻  作者:

文章转载来源:华尔街见闻

作者:赵颖

AI大战,究竟谁才是最终赢家?

或许既不是人们讨论最激烈的OpenAI,也不是微软、谷歌等科技巨头,开源AI可能将在未来占领高地。

周四,据媒体semianalysis报道,谷歌研究员在一份泄密文件中坦言,谷歌没有护城河,OpenAI也是如此,与开源AI竞争将难以占据优势。

正如文件中提到的,开源模型训练速度更快,可定制性更强,更私密,而且比同类产品能力更出色。他们正在用100美元和130亿的参数做一些“谷歌1000万美元和540亿的参数难以企及”的事情,而且在短短几周内就能做到,而不是几个月。

对于用户而言,如果有一个没有使用限制、免费、高质量的替代品,谁还会为谷歌的产品付费呢?

以下是谷歌泄密文件:

谷歌没有护城河,OpenAI也是如此

我们对OpenAI进行了很多审视和思考,谁会跨越下一个里程碑?下一步会有什么行动?

但令人不安的事实是,我们没有能力赢得这场军备竞赛,OpenAI也是如此。在我们争吵不休的时候,第三个派别一直在悄悄地抢我们的饭碗。

我指的是开源AI,简而言之他们正在抢走我们的市场份额。我们认为的“主要的开放问题”如今被解决了,并且已经触达用户。仅举几例:

手机上的LLMs:人们以5 tokens/sec在Pixel 6上运行基础模型。

可扩展的个人人工智能:你可以在一个晚上用你的笔记本电脑上微调生成个性化的AI助手。

负责任的发布:这个问题并没有“解决”,而是“避免”。有的整个网站充满了没有任何限制的艺术模型,而文字也不甘落后。

多模态性:目前的多模态ScienceQA SOTA是在一小时内训练完成的。

虽然我们的模型在质量上仍有一点优势,但差距正在以令人惊讶的速度迅速缩小。开源模型训练速度更快,可定制性更强,更私密,而且比同类产品能力更出色。他们正在用100美元和130亿的参数做一些“谷歌用1000万美元和540亿的参数难以企及”的事情,而且在几周内就能做到,而不是几个月。这对我们有深远的影响:

我们没有诀窍。我们最大的希望是向谷歌以外的其他人学习并与他们合作。我们应该优先考虑实现3P整合。

当免费的、不受限制的替代品质量相当时,人们不会为一个受限制的模式付费。我们应该考虑我们的附加值到底在哪里?

大模型正在拖累我们,从长远来看,最好的模型是那些可以快速迭代的模型。

发生了什么?

三月初,Meta的大语言模型LLaMA被泄露,开源社区得到了第一个真正有能力的基础模型。它没有指令或对话调整,也没有RLHF。尽管如此,社区立即理解了他们所得到的东西的意义。

随后,巨大的创新成果接连涌现出来,发展仅仅间隔了几天。现在,不到一个月的时间,就出现了指令调整、量化、质量改进、人类评价、多模态、RLHF等变体,许多都是相互关联的。

最重要的是,他们已经解决了缩放(scaling)问题,达到了任何人都可以调整的程度。许多新的想法都来自于普通人,门槛已经从一个主要研究机构下降到一个人、一个晚上和一台强大的笔记本电脑。

在许多方面,这对任何人来说都不那么惊讶。当前开源大模型的复兴紧随生成图像模型的火热,开源社区并没有忘记这些相似之处,许多人称这是LLMs的“Stable Diffusion”时刻。

通过低秩矩阵微调方法(LoRA),结合规模上的重大突破(如大模型Chinchilla),公众可以用较低成本参与进来;在这两种情况下,获得一个足够高质量的模型可以引发了世界各地的个人和机构的想法和迭代的热潮,很快就会超越大型企业。

这些贡献在图像生成领域非常关键,使Stable Diffusion公司走上了与Dall-E不同的道路。拥有一个开放的模式带来的产品整合、市场、用户界面和创新,这些都是Dall-E所没有的。

其效果是可想而知的:在文化影响方面,与OpenAI的解决方案相比,它迅速占据了主导地位,变得越来越相互依赖。同样的事情是否会发生在LLM上还有待观察,但广泛的结构元素是相同的。

我们错过了什么?

开源最近成功的创新直接解决了我们仍在挣扎的问题,多关注他们的工作可以帮助我们避免重蹈覆辙。

LoRA是一个非常强大的技术,我们应该多加注意,LoRA的工作原理是将模型更新表示为低秩因子化,这将更新矩阵的大小减少了几千倍。这使得模型的微调只需要一小部分的成本和时间。能够在几个小时内在消费类硬件上对语言模型进行个性化调整是一件大事,特别是对于那些涉及在近乎实时的情况下纳入新的和多样化的知识。这项技术的存在在谷歌内部没有得到充分的利用,尽管它直接影响了我们一些最雄心勃勃的项目。

从头开始重新训练模型是一条艰难的道路,LoRA之所以如此有效,部分原因在于--像其他形式的微调--是可堆叠的,像指令调整这样的改进可以被应用,然后随着其他贡献者增加对话、推理或工具使用而被利用。虽然单个的微调是低等级的,但它们的总和不需要,允许模型的全等级更新随着时间的推移而积累。

这意味着,随着新的和更好的数据集和任务的出现,模型可以以较低成本保持更新,而不需要支付全面训练的费用。

相比之下,从头开始训练大模型,不仅丢掉了预训练,还丢掉了之前的任何迭代改进。在开源的世界里,这些改进在不久之后就会占据主导地位,从而使全面重新训练的成本变得非常昂贵。

我们应该深思熟虑,每个新的应用或想法是否真的需要一个全新的模型。如果我们真的有重大的架构改进,那么我们应该投资于更积极的提炼形式,尽可能地保留前一代的能力。如果我们能在小模型上更快地进行迭代,那么从长远来看,大模型并不是更有优势。

LoRA更新的成本非常低(约100美元),这意味着几乎任何有想法的人都可以生成。训练时间少于一天是很正常的,在这种速度下,所有这些微调的累积效应不需要很长时间就可以克服初始的模型规模劣势。

数据质量的扩展性比大小更好体现在这些项目中,许多模型通过在小型、高质量的数据集上进行训练来节省时间。这表明在数据扩展规律有一定的灵活性,同时正迅速成为谷歌之外的标准训练方式。这两种方法在谷歌都不占优势,但幸运的是,这些高质量的数据集是开源的,可以免费使用。

与开源直接竞争是一个赔本生意

最近的这一进展对我们的商业战略有直接、重大的影响,如果有一个没有使用限制、免费、高质量的替代品,谁还会为谷歌的产品付费呢?

而且,我们不应该指望能够追赶上,现代互联网在开放源码上运行是有原因的,开放源码有一些无法复制的优势。

我们更需要他们,对我们的技术进行保密始终是不稳固的,谷歌的研究人员经常变动,所以我们可以假设他们知道我们所知道的一切,而且只要这个途径是开放的,相关技术就会继续散播出去。

但在技术方面保持竞争优势变得更加困难,世界各地的研究机构都在彼此的工作基础上,以广度优先的方式探索解决方案的空间,远远超过了我们的能力。我们可以尝试紧紧抓住我们的秘密,而外部的创新会稀释它们的价值,或者我们可以尝试相互学习。



Tags:AI   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
Meta推出新版自研AI芯片:性能较上代提高三倍,降低对英伟达依赖
AI(人工智能)芯片紧缺之际,越来越多科技巨头选择自行研发。当地时间4月10日,社交巨头Meta公布了自主研发芯片MTIA的最新版本。MTIA是Meta专门为AI训练和推理工作设计的定制芯片...【详细内容】
2024-04-11  Search: AI  点击:(1)  评论:(0)  加入收藏
英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电
新华财经上海4月11日电 当地时间4月9日,英特尔在Vision 2024客户和合作伙伴大会上宣布推出最新AI芯片产品Gaudi 3加速器。英特尔称,相比英伟达的H100 GPU,Gaudi3 AI芯片的模型...【详细内容】
2024-04-11  Search: AI  点击:(2)  评论:(0)  加入收藏
AI“复活”亲人成生意,哪些红线待划定?
提供一张照片、一段10多秒的音频,即可让逝者在视频中“活”过来——AI“复活”亲人成生意,哪些红线待划定?本报记者 陶稳《工人日报》(2024年04月11日 06版)阅读提示...【详细内容】
2024-04-11  Search: AI  点击:(2)  评论:(0)  加入收藏
全球十大独角兽发布:字节稳坐第一,SpaceX第二,OpenAI第三
鞭牛士报道,4月10日消息,根据胡润《2024 年全球独角兽指数》,TikTok 所有者字节跳动以 1.56 万亿元人民币(1.72 万亿港元)连续第三年成为全球最大的独角兽公司。SpaceX 以 1.28...【详细内容】
2024-04-10  Search: AI  点击:(0)  评论:(0)  加入收藏
科技巨头狂撒千亿美元 “买照片”,只为训练AI模型?
高质量的数据,越来越值钱。你能想象,那些被遗忘在网盘的陈年老图,有朝一日能价值千金?就在最近,路透社报道称,苹果公司正与图像托管网站Photobucket协商,希望得到这家公司近130亿张...【详细内容】
2024-04-10  Search: AI  点击:(0)  评论:(0)  加入收藏
数字水印国标将出,AI生成内容标识成新焦点
日前,全国网络安全标准化技术委员会就国家标准《信息安全技术数字水印技术实现指南》公开征求意见,这是数字水印技术方面的首份国家标准,旨在解决由于缺乏统一实施流程、服务接...【详细内容】
2024-04-10  Search: AI  点击:(1)  评论:(0)  加入收藏
互联网充斥“针对小白的AI课”,能相信吗?普通人不学AI课程会被淘汰?
早前,一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主,向用户大力推介“所有人都需要学”的AI入门课程。不过,这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】
2024-04-10  Search: AI  点击:(7)  评论:(0)  加入收藏
AI是万灵药?Meta要把大模型塞进AR眼镜里
寻找下一块“屏幕”,这无疑是最近几年科技行业的一个热门赛道。随着个人计算机点燃了互联网,智能手机让移动互联网无处不在之后,这前后两次造富神话的出现,也让所有人都在期待下...【详细内容】
2024-04-09  Search: AI  点击:(6)  评论:(0)  加入收藏
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09  Search: AI  点击:(3)  评论:(0)  加入收藏
AI+数字人成为市场关注焦点,大屏AI数字人助力展厅设计创意升级
随着各行业产业的数字化转型加速,人工智能时代的到来,展馆展厅行业也步入数字时代,各式的展馆展厅设计在融合了全息投影、虚拟现实、数字沙盘、互动投影、互动桌面等多种技术后...【详细内容】
2024-04-09  Search: AI  点击:(4)  评论:(0)  加入收藏
▌简易百科推荐
行业大模型快速落地的一年,如何做?
生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看,无论是“文生文”的大语言模型,还是“文生图”的多模态模型,更多的是辅助人们进行一些简单的办公,或者提供一...【详细内容】
2024-04-10    钛媒体APP  Tags:行业大模型   点击:(3)  评论:(0)  加入收藏
互联网充斥“针对小白的AI课”,能相信吗?普通人不学AI课程会被淘汰?
早前,一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主,向用户大力推介“所有人都需要学”的AI入门课程。不过,这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】
2024-04-10    九派新闻  Tags:AI课   点击:(7)  评论:(0)  加入收藏
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(3)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(3)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(4)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(6)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(3)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(5)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(6)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
站内最新
站内热门
站内头条