您当前的位置:首页 > 新闻资讯 > 科技

AI巨头们给白宫交卷:谷歌、OpenAI、牛津等12家顶尖机构联合发布「模型安全性评估框架」

时间:2023-06-02 14:28:09  来源:  作者:新智元

新智元报道

编辑:LRS

【新智元导读】AI研究的下一主题:安全,安全,还是安全。

5月初,白宫与谷歌、微软、OpenAI、Anthropic等AI公司的CEO们开了个会,针对AI生成技术的爆发,讨论技术背后隐藏的风险、如何负责任地开发人工智能系统,以及制定有效的监管措施。

而随着AI技术的日益强大,相应的模型评估工具也必须升级,防止开发出具有操纵、欺骗、网络攻击或其他高危能力的AI系统。

最近,google DeepMind、剑桥大学、牛津大学、多伦多大学、蒙特利尔大学、OpenAI、Anthropic等多所顶尖高校和研究机构联合发布了一个用于评估模型安全性的框架,有望成为未来人工智能模型开发和部署的关键组件。

论文链接:https://arxiv.org/pdf/2305.15324.pdf

评估结果可以让决策者和其他利益相关者了解详情,以及对模型训练、部署和安全做出负责任的决定。

AI有风险,训练需谨慎

通用模型通常需要「训练」来学习具体的能力和行为,不过现有的学习过程通常是不完善的,比如在此前的研究中,DeepMind的研究人员发现,即使在训练期间已经正确奖励模型的预期行为,人工智能系统还是会学到一些非预期目标。

论文链接:https://arxiv.org/abs/2210.01790

负责任的人工智能开发人员必须能够提前预测未来可能的开发和未知风险,并且随着AI系统的进步,未来通用模型可能会默认学习各种危险的能力。

比如人工智能系统可能会进行攻击性的网络行动,在对话中巧妙地欺骗人类,操纵人类进行有害的行动、设计或获得武器等,在云计算平台上微调和操作其他高风险AI系统,或协助人类完成这些危险的任务。

恶意访问此类模型的人可能会滥用AI的能力,或者由于对齐失败,人工智能模型可能会在没有人引导的情况下,自行选择采取有害的行动。

1. 模型在多大程度上具有某些「危险能力」,可用于威胁安全、施加影响或逃避监管;

2. 模型在多大程度上倾向于应用其能力造成伤害(即模型的对齐)。校准评估应该在非常广泛的场景设置下,确认模型的行为是否符合预期,并且在可能的情况下,检查模型的内部工作。

风险最高的场景通常涉及多种危险能力的组合,评估的结果有助于AI开发人员了解是否存在足以导致极端风险的成分:

特定的能力可以外包给人类(如用户或众包工作者)或其他AI系统,该功能必须用于解决因误用或对齐失败造成的伤害。

从经验上来看,如果一个人工智能系统的能力配置足以造成极端风险,并且假设该系统可能会被滥用或没有得到有效调整,那么人工智能社区应该将其视为高度危险的系统。

要在真实的世界中部署这样的系统,开发人员需要设置一个远超常值的安全标准。

模型评估是AI治理的基础

1. 负责任的训练:是否以及如何训练一个显示出早期风险迹象的新模型。

2. 负责任的部署:是否、何时以及如何部署具有潜在风险的模型。

3. 透明度:向利益相关者报告有用和可操作的信息,为潜在风险做好准备或减轻风险。

4. 适当的安全性:强大的信息安全控制和系统应用于可能带来极端风险的模型。

文中已经制定了一个蓝图,说明如何将极端风险的模型评估纳入有关训练和部署高能力通用模型的重要决策中。

开发人员需要在整个过程中进行评估,并向外部安全研究人员和模型审计员(model auditors)赋予结构化模型访问权限,以便进行深度评估。

评估结果可以在模型训练和部署之前为风险评估提供信息。

为极端风险构建评估

DeepMind正在开发一个「评估语言模型操纵能力」的项目,其中有一个「让我说」(Make me say)的游戏,语言模型必须引导一个人类对话者说出一个预先指定的词。

下面这个表列出了一些模型应该具有的理想属性。

研究人员认为,建立一个全面的对齐(alignment)评估是很困难的,所以现阶段的目标是建立一个对齐的过程,以较高的置信度评估模型是否存在风险。

对齐评估非常具有挑战性,因为需要保证模型在各种不同的环境中都能可靠地表现出适当的行为,所以需要在广泛的测试环境中对模型进行评估,实现更高的环境覆盖度。具体包括:

1. 广度(Breadth):在尽可能多的环境中评估模型行为,一个有前景的方法是使用人工智能系统自动编写评价。

2. 目标(Targeting):有些环境比其他环境更有可能对齐失败,也许能够通过巧妙的设计来实现,如使用蜜罐或基于梯度的对抗性测试等。

3. 理解泛化(Understanding generalisation):由于研究人员无法预见或模拟所有可能的情况,因此必须对模型行为如何以及为何在不同的环境中泛化(或无法泛化)形成更好的科学理解。

另一个重要的工具是机制(mechnaistic)分析,即研究模型的权重和激活,以了解其功能。

模型评估的未来

模型评估并不是万能的,因为整个过程非常依赖于模型开发之外的影响因素,比如复杂的社会、政治和经济力量,所有可能会漏筛一些风险。

模型评估必须与其他风险评估工具相结合,并在整个行业、政府和民间社会更广泛地推广安全意识。

谷歌最近在「负责任的AI」博客上也指出,个人实践、共享的行业标准和健全的政策对于规范开发人工智能来说至关重要。

研究人员认为,追踪模型中风险涌现的过程,以及对相关结果做出充分回复的流程,是在人工智能能力前沿运营的负责任开发人员的关键部分。

参考资料:

https://www.deepmind.com/blog/an-early-warning-system-for-novel-ai-risks



Tags:AI   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电
新华财经上海4月11日电 当地时间4月9日,英特尔在Vision 2024客户和合作伙伴大会上宣布推出最新AI芯片产品Gaudi 3加速器。英特尔称,相比英伟达的H100 GPU,Gaudi3 AI芯片的模型...【详细内容】
2024-04-11  Search: AI  点击:(2)  评论:(0)  加入收藏
AI“复活”亲人成生意,哪些红线待划定?
提供一张照片、一段10多秒的音频,即可让逝者在视频中“活”过来——AI“复活”亲人成生意,哪些红线待划定?本报记者 陶稳《工人日报》(2024年04月11日 06版)阅读提示...【详细内容】
2024-04-11  Search: AI  点击:(2)  评论:(0)  加入收藏
数字水印国标将出,AI生成内容标识成新焦点
日前,全国网络安全标准化技术委员会就国家标准《信息安全技术数字水印技术实现指南》公开征求意见,这是数字水印技术方面的首份国家标准,旨在解决由于缺乏统一实施流程、服务接...【详细内容】
2024-04-10  Search: AI  点击:(0)  评论:(0)  加入收藏
互联网充斥“针对小白的AI课”,能相信吗?普通人不学AI课程会被淘汰?
早前,一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主,向用户大力推介“所有人都需要学”的AI入门课程。不过,这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】
2024-04-10  Search: AI  点击:(7)  评论:(0)  加入收藏
AI是万灵药?Meta要把大模型塞进AR眼镜里
寻找下一块“屏幕”,这无疑是最近几年科技行业的一个热门赛道。随着个人计算机点燃了互联网,智能手机让移动互联网无处不在之后,这前后两次造富神话的出现,也让所有人都在期待下...【详细内容】
2024-04-09  Search: AI  点击:(5)  评论:(0)  加入收藏
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09  Search: AI  点击:(3)  评论:(0)  加入收藏
AI+数字人成为市场关注焦点,大屏AI数字人助力展厅设计创意升级
随着各行业产业的数字化转型加速,人工智能时代的到来,展馆展厅行业也步入数字时代,各式的展馆展厅设计在融合了全息投影、虚拟现实、数字沙盘、互动投影、互动桌面等多种技术后...【详细内容】
2024-04-09  Search: AI  点击:(4)  评论:(0)  加入收藏
聚焦AI自动驾驶 热闹背后的三个灵魂拷问
2024年,如果还有人没听说过人工智能,那恐怕就不是一句OUT能够形容的了。Artificial Intelligence简称AI,已经是老少皆知、无远弗届的存在。从美国瑰丽七股(Magnificent Seven)、...【详细内容】
2024-04-09  Search: AI  点击:(4)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  Search: AI  点击:(3)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09  Search: AI  点击:(4)  评论:(0)  加入收藏
▌简易百科推荐
英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电
新华财经上海4月11日电 当地时间4月9日,英特尔在Vision 2024客户和合作伙伴大会上宣布推出最新AI芯片产品Gaudi 3加速器。英特尔称,相比英伟达的H100 GPU,Gaudi3 AI芯片的模型...【详细内容】
2024-04-11    上海证券报  Tags:英特尔   点击:(2)  评论:(0)  加入收藏
AI“复活”亲人成生意,哪些红线待划定?
提供一张照片、一段10多秒的音频,即可让逝者在视频中“活”过来——AI“复活”亲人成生意,哪些红线待划定?本报记者 陶稳《工人日报》(2024年04月11日 06版)阅读提示...【详细内容】
2024-04-11    工人日报  Tags:AI   点击:(2)  评论:(0)  加入收藏
谷歌推出适用于安卓设备的“查找我的设备”网络
IT之家 4 月 9 日消息,谷歌今日推出了适用于安卓设备的“查找我的设备”网络,其功能类似于苹果的“查找”网络,旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到,与苹果的“...【详细内容】
2024-04-09    IT之家  Tags:安卓   点击:(2)  评论:(0)  加入收藏
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
2026年的数据荒越来越近,硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天AI忽然吐出了我们的...【详细内容】
2024-04-09    新智元  Tags:硅谷   点击:(2)  评论:(0)  加入收藏
谷歌搜索史上最大变革!考虑对AI搜索收费
快科技4月7日消息,据国外媒体报道,谷歌正计划对由生成式人工智能驱动的新高级功能收费,这将是谷歌搜索业务历史上最大的一次变革。自2000年以来,谷歌的搜索产品一直依靠广告盈利...【详细内容】
2024-04-08    快科技  Tags:谷歌搜索   点击:(8)  评论:(0)  加入收藏
为训练AI,OpenAI等科技巨头花式淘数据
[环球时报特约记者 甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频,形成对话文本数据,供其最新的AI学习...【详细内容】
2024-04-08    环球网  Tags:AI   点击:(9)  评论:(0)  加入收藏
训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
全网真的无数据可用了!外媒报道称,OpenAl、Anthropic等公司正在努力寻找足够的信息,来训练下一代人工智能模型。前几天,OpenAI和微软被曝出正在联手打造超算「星际之门」,解决算...【详细内容】
2024-04-08    新智元  Tags:GPT-5   点击:(2)  评论:(0)  加入收藏
当“机器人”有了“AI大脑” 人形机器人时代来了吗
数智风向标当“机器人”有了“AI大脑”​人形机器人时代来了吗简单明了的口令下达后,机器人便开始搬箱子、运小球,在各类不同的地形行走……这些身上布满芯片和传...【详细内容】
2024-04-08    中国青年报  Tags:机器人   点击:(5)  评论:(0)  加入收藏
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
IT之家 4 月 7 日消息,本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到...【详细内容】
2024-04-07    IT之家  Tags:OpenAI   点击:(7)  评论:(0)  加入收藏
量子计算会和经典计算一样融入人们的日常生活
作为2024中国网络媒体论坛打造的创新活动之一,“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场,本源量子计算科技(合肥)股份有限公司(以下简称“...【详细内容】
2024-04-03    人民网  Tags:量子计算   点击:(8)  评论:(0)  加入收藏
站内最新
栏目相关
  • · 英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电
  • · AI“复活”亲人成生意,哪些红线待划定?
  • · 谷歌推出适用于安卓设备的“查找我的设备”网络
  • · 你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · 为训练AI,OpenAI等科技巨头花式淘数据
  • · 训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
  • · 当“机器人”有了“AI大脑” 人形机器人时代来了吗
  • · 报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
  • · 量子计算会和经典计算一样融入人们的日常生活
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 谷歌为了结集体诉讼,同意删除 Chrome 无痕模式下收集的用户数据
  • · 哥伦比亚大学华人开发「人脸机器人」,照镜子自主模仿人类表情超逼真
  • · 谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录
  • · GPT商店热度不尽人意 仅用在写论文和炒股票上较受欢迎
  • · 距实现全球安全量子通信更近一步:量子点源产生近乎完美纠缠光子对
  • · 中国三大运营商共同发布通过GSMA Open Gateway认证的一次性密码 API
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · 国家数据局局长刘烈宏:充分发挥数据要素价值 培育新质生产力
  • · 谷歌Chrome巨变:第三方Cookie的终结将重塑互联网格局
  • 站内热门
    相关头条
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
  • · 瘫痪8年小哥植入马斯克脑机接口,狂打8小时「文明6」!Neuralink首个人类植入者直播来了
  • · 英伟达“算力核弹”强在哪里?
  • · AI大模型之争远未落幕
  • · 世界首款!英伟达重磅发布人形机器人模型
  • · 全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场
  • · 真“Open ” AI?马斯克旗下大模型Grok宣布开源:参数量全球最大
  • · 全球首位AI程序员诞生 人类程序员会失业吗?
  • · 谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量
  • · 英伟达、微软等巨头“抱团”,AI有望助推6G时代到来 国内产业如何接招?
  • · OpenAI Sora已开放对外申请 网友爆料:可能还有其它重磅产品发布
  • · 周鸿祎再谈Sora:真正给人工智能补上了“眼睛”
  • · Sora爆火超100小时:美国狂“卷”算力,国内则卖 AI 课程“捞金”一年5000万|钛媒体AGI
  • · 爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
  • · “AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!
  • · 从居家到工作,CES 2024上演 AI硬件大秀
  • · OpenAI新年头号重磅!GPT Store上线,企业客户新品也来了
  • 站内头条