您当前的位置:首页 > 电脑百科 > 人工智能

引爆OpenAI全员乱斗的Q*到底是什么?

时间:2023-11-28 12:08:51  来源:机器之心  作者:

编辑:泽南、小舟

强大到能威胁人类,所以不得不把自家 CEO 开了?

本周三,AI target=_blank class=infotextkey>OpenAI 的「宫斗」随着山姆・奥特曼回归 CEO 大位而告于段落,不过此次事件的余波还在震撼着关心 AI 的每一个人。我们都想知道,是什么让 OpenAI 前董事会不计任何代价也要开除奥特曼的。

最近几天,互联网上有关 Q* 的讨论前所未有的热闹。

引爆OpenAI全员乱斗的Q*到底是什么?

据 The Information 本周四报道,由 OpenAI 首席科学家 Ilya Sutskever 领导的团队在今年早些时候取得了技术突破,使得他们能够构建一个名为 Q*(音同 Q star)的新模型。Q* 最关键的突破是它能够解决基本的数学问题。

又据路透社报道,Q * 模型引发了 OpenAI 内部的一场风暴,几名工作人员写信给 OpenAI 董事会,警告称这一新突破可能会威胁人类。这一警告被认为是董事会选择解雇山姆・奥特曼(Sam Altman)的原因之一。

让 AI 解决基本数学问题的能力听起来似乎没有很厉害,但实际上这代表着大模型能力的巨大飞跃。很多近期研究表明,现有模型很难在训练数据之外进行泛化。

越来越多的工程师和研究人员加入了对 Q * 的猜测和讨论之中。

据 Business Insider 报道,人工智能初创公司 Tromero 的联合创始人 Charles Higgins 表示:「对抽象概念进行逻辑推理正是目前大模型真正面临的难题。数学涉及大量符号推理,例如『如果 X 大于 Y,Y 大于 Z,那么 X 大于 Z。』」而现有语言模型不进行逻辑推理,只是拥有有效的直觉。

那么,Q * 模型为什么可以进行逻辑推理?它的名字暗示了这个问题的答案。

Q * 暗示其结合了两种著名的人工智能方法 ——Q-learning 和 A* 搜索。

引爆OpenAI全员乱斗的Q*到底是什么?

Q-learning 是人工智能领域的一个基本概念,它是一种无模型强化学习算法,旨在学习特定状态下动作(action)的价值(value)。Q-learning 的最终目标是找到一个最优策略,定义在每个状态下采取的最佳动作,从而随着时间的推移最大化累积奖励(reward)。

ChatGPT 开发者之一的 John Schulman 2016 年在一次演讲中提到过这个概念,引入 Q* 到优化策略中:

引爆OpenAI全员乱斗的Q*到底是什么?

所以在每个状态下,哪种行动能有最优奖励?

引爆OpenAI全员乱斗的Q*到底是什么?

Bandit 问题可以利用贝尔曼方程来解决。

Q-learning 基于 Q 函数,即状态动作价值函数。在简单的场景中,Q-learning 会维护并更新一个 Q-table,更新规则通常表示为:

引爆OpenAI全员乱斗的Q*到底是什么?

图源:https://Twitter.com/BrianRoemmele/status/1727558171462365386

Q-learning 的关键是平衡探索(尝试新事物)和利用(使用已知信息)。简单来说,Q* 可以实现最优策略,这在强化学习等 AI 方法中是算法重要的步骤,有关算法能否采取最佳决策,找到「正确解」。通常,被称为「Q Learning」的行为不会指代对上下文的搜索,或者至少不会作为算法的高级名称。它通常用于指代贪婪行为的代理。

另外也有人认为,或许如果 Q 指代 Q Learning,那么 * 就是来自 A* 搜索。

A*(A-Star)算法是一种静态路网中求最短路径最有效的直接搜索方法,也是解决许多搜索问题的有效算法。算法中的距离估算值与实际值越接近,最终搜索速度越快。

引爆OpenAI全员乱斗的Q*到底是什么?

这样的思路也很有趣。

最后,如果你想了解更多 Q-learning 的内容,可以参看强化学习之父 Richard S. Sutton 那本著名的《Reinforcement Learning: An Introduction》。

值得注意的是,OpenAI 为大模型训练使用的 RLHF 方法,旨在让模型从人类反馈中学习,而不是仅仅依赖于预定义的数据集。

人类反馈可以有多种形式,包括更正、不同输出的排名、直接的指令等等。AI 模型会利用这些反馈来调整其算法并改进响应。这种方法在定义明确规则或提供详尽示例的挑战性领域特别有用。有人猜测,这就是为什么 Q* 接受逻辑训练并最终能够适应简单算术的原因。

然而,Q-learning 算法对实现通用人工智能(AGI)能起到多大的作用?

首先,AGI 是指人工智能系统理解、学习并将其智能应用于各种问题的能力,类似于人类智能。Q-learning 虽然在特定领域很强大,但实现 AGI 必须要克服一些挑战,包括可扩展性、泛化、适应性、技能组合等等。

实际上,近年来涌现了很多尝试将 Q-learning 与其他深度学习方法结合的研究,例如将 Q-learning 与元学习结合,让 AI 学会动态调整其学习策略。

这些研究的确让 AI 模型有了能力上的改进提升,但是 Q-learning 是否能帮助 OpenAI 实现 AGI 还未可知。

PerplexityAI 的 CEO Aravind Srinivas 认为,Sutton 的文章《惨痛的教训》告诉我们,计算才是前进的方向。我们需要更多数据(不仅是参数)来有效地使用计算。如果我们最大限度地利用互联网上的数据,那就需要模型本身来生成下一个 token,即递归的自我完善:

引爆OpenAI全员乱斗的Q*到底是什么?

那么这应该根本就不危险,正如以前计算机视觉研究中,对于图像数据进行翻转和裁剪以训练分类器一样。

也有人猜测,Q* 是 AlphaStar 式搜索 + LLM 的传说中的突破,它是很多 AI Lab 正在努力的方向。但考虑到 GPT-4 自验证 + 搜索此前一些尝试有限的提升,我们距离 AGI 还是很远的。

引爆OpenAI全员乱斗的Q*到底是什么?

如果正如各路媒体所报道的,Q * 的突破意味着下一代大模型可以将支持 ChatGPT 的深度学习技术与人类编程的规则结合起来。这种方法可以帮助解决困扰当前大模型的幻觉问题。

这可能会是个重要的技术发展里程碑。在实际层面上,应该距离 AI 终结世界还很远。

「我认为人们之所以相信 Q* 将通向通用人工智能,是因为从我们迄今为止所听到的情况来看,它似乎会将大脑的两侧结合起来,并且能够从经验中了解一些事情,同时仍然能够推理事实,」Tromero 联合创始人 Sophia Kalanovska 表示。「这绝对是离我们所认为的智能更近了一步,并且有更可能让模型能够产生新的想法,ChatGPT 则不然。」

无法推理和创造新想法,仅仅是从训练数据中总结信息 —— 这被视为现有大模型的局限性,甚至对于参与这些方向研究的人来说,他们也在被框架所局限。

萨里学院人类中心 AI 研究所负责人 Andrew Rogoyski 认为,解决前所未见的问题是构建 AGI 的关键一步:「就数学而言,我们知道现有的人工智能已被证明能够进行本科水平的数学运算,但无法处理更高级的数学问题。」

「然而,如果人工智能能够解决新的、看不见的问题,而不仅仅是反省或重塑现有知识,那么这将是一件大事,即使所涉及到的问题相对简单,」他补充道。

并非所有人都对 Q * 可能带来的突破如此兴奋。著名 AI 学者,纽约大学教授 Gary Marcus 在他的个人博客上发表了一篇文章,对 Q* 所报道的功能表示怀疑。

「OpenAI 的董事会可能确实会对新技术表示担忧…… 尽管有一些说法称 OpenAI 已经在尝试测试 Q*,但他们在几个月内彻底改变世界是不现实的,」Marcus 表示。「如果我每一个这样的推断(Q * 可能威胁人类)都能得到五分钱,我就会成为马斯克级别的首富。」

图灵奖得主 Yann LeCun 在与 Geoffrey Hinton 讨论 AI 风险问题之余也点评了 Q*:

引爆OpenAI全员乱斗的Q*到底是什么?

LeCun 认为:「Q * 很可能只是 OpenAI 用规划取代自回归 token 预测的一种尝试。现在关于 Q* 的推测只不过是废话。」

马斯克也参与了讨论,顺便还宣传了下自家模型。他表示,你们讨论的能力 Grok 都会有:

引爆OpenAI全员乱斗的Q*到底是什么?

对于 Q*,OpenAI 仍然没有对外界的询问给予回应。

人们的讨论还在继续,或许在 OpenAI 下一个大模型发布之后,我们才能真正得到答案。

参考内容:

https://www.businessinsider.com/openai-project-q-sam-altman-ia-model-explainer-2023-11

https://twitter.com/BrianRoemmele/status/1727558171462365386

https://garymarcus.substack.com/p/about-that-openai-breakthrough



Tags:Q*   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
ChatGPT之父Altman两小时对谈,首聊GPT-5何时发布、llya去哪里了、Q*究竟是什么
Altman做客油管博主Lex Fridman科技博客 ,被追问了一个又一个辛辣的问题。长达两个小时的对谈,奥特曼从OpenAI宫斗、马斯克诉讼、Sora,一直聊到AGI与外星文明!本文重点梳理了长...【详细内容】
2024-03-20  Search: Q*  点击:(8)  评论:(0)  加入收藏
从Google Gemini到OpenAI Q*:生成式AI研究领域全面综述
新智元报道来源:专知【新智元导读】这项综述性研究报告批判性地分析了生成式AI的发展现状和发展方向,并探究了谷歌Gemini和备受期待的OpenAI Q*等创新成果将如何改变多个领域...【详细内容】
2024-01-09  Search: Q*  点击:(162)  评论:(0)  加入收藏
引爆OpenAI全员乱斗的Q*到底是什么?
编辑:泽南、小舟强大到能威胁人类,所以不得不把自家 CEO 开了?本周三,OpenAI 的「宫斗」随着山姆・奥特曼回归 CEO 大位而告于段落,不过此次事件的余波还在震撼着关心 AI 的每一...【详细内容】
2023-11-28  Search: Q*  点击:(178)  评论:(0)  加入收藏
内部人担忧“威胁人类生存”!OpenAI的神秘重大突破“Q*算法”究竟是什么?
 据报道,Q*可能具备GPT-4所不具备的基础数学能力,或意味着与人类智能相媲美的推理能力,网友推测,这可能代表OpenAI朝着其设定的AGI目标迈出了一大步。  随着OpenAI CEO奥特曼...【详细内容】
2023-11-24  Search: Q*  点击:(211)  评论:(0)  加入收藏
▌简易百科推荐
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(4)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(7)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
AI干掉声优?音频大模型追逐“图灵时刻”
七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不...【详细内容】
2024-04-03    第一财经网  Tags:AI   点击:(5)  评论:(0)  加入收藏
生成式人工智能有哪些新趋势?
相较于去年,当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台,只要是以搜索结果为导向的内容,都会出现它的身影。但其实,人工智能的应用场...【详细内容】
2024-04-03  品谈教师帮    Tags:人工智能   点击:(6)  评论:(0)  加入收藏
AI世界的新难题:互联网的信息不够用了!
高质量数据的紧缺正成为AI发展的重要障碍。4月1日,据媒体报道,随着OpenAI、Google等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们...【详细内容】
2024-04-02  硬AI    Tags:AI   点击:(6)  评论:(0)  加入收藏
今天起,ChatGPT无需注册就能用了!
 来源:量子位    金磊 克雷西 发自 凹非寺  就在刚刚,OpenAI狠狠地open了一把:从今天起,ChatGPT打开即用,无需再注册帐号和登录了!  像这样,直接登录网站,然后就可以开启对...【详细内容】
2024-04-02    量子位   Tags:ChatGPT   点击:(7)  评论:(0)  加入收藏
AI时代,面对死亡有了第二种选择?
今年春节期间,罗佩玺瞒着妈妈用AI技术“复活”了外婆,她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年,妈妈和外婆终于又“见面”了,这是她送给妈妈的生日礼物。收...【详细内容】
2024-04-02    中国青年报  Tags:AI时代   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条