您当前的位置:首页 > 电脑百科 > 程序开发 > 算法

内部人担忧“威胁人类生存”!OpenAI的神秘重大突破“Q*算法”究竟是什么?

时间:2023-11-24 15:15:27  来源:华尔街见闻  作者:
 据报道,Q*可能具备GPT-4所不具备的基础数学能力,或意味着与人类智能相媲美的推理能力,网友推测,这可能代表AI target=_blank class=infotextkey>OpenAI朝着其设定的AGI目标迈出了一大步。

  随着OpenAI CEO奥特曼回归,宫斗大戏告一段落,但仍留下了许多未接的谜题。其中最为关键的,就是当初奥特曼为何会被董事会解雇。

  昨日,有媒体透露,就在奥特曼被开除四天前,几名研究人员向董事会发出了一封信,警告一项强大的AI发现(Q*)可能威胁全人类。此外,OpenAI CTO Mira Murati此前在致员工的内部信件中提到了一个代号为“Q*”的项目。据她称,该项目为“董事会对奥特曼的一系列不满中的因素之一”。

  据多家媒体猜测,Q*让OpenAI实现AGI的步伐大大提速,但奥特曼可能没有和董事会详细披露Q*的进展到底有多大,这也符合董事会在解雇奥特曼时所说的“在与董事会沟通时没有始终保持坦诚”。

  就在被解雇之前,奥特曼还在公开活动中表示:

“在OpenAI的历史上,我们已经取得了4次突破,最近一次是在过去的几周里。当我们把无知的面纱撕下,把发现的前沿向前推进时,我就在房间里。”

  所谓的第四次突破,指的可能就是Q*项目。

  什么是 Q*?

  什么是Q*?

  Q*读作Q star,目前OpenAI内部没有任何关于Q*的详细信息流出。

  据一些业内人士猜测,它可能是是机器学习算法Q-Learning(Q学习)的同义词,也许是OpenAI借助Q学习算法打造的新模型的代号,也许是一个相关的项目名称。

  科技博客PC Guide指出,OpenAI使用的Q*指的大概是贝尔曼方程中的最优值函数,Q*可能代表OpenAI找到或接近了效率优化算法的最优解。

  根据天风证券分析师孔蓉的说法:

Q学习是一种基于强化学习的算法,用来在马尔科夫决策过程中求解最优控制问题。它的目标是通过学习最优策略,使智能体在未知环境中做出最佳选择。

Q学习依据贝尔曼方程更新状态-动作对应的Q值,逼近最优值函数。智能体通过与环境交互,观察到新的状态和奖励,来更新执行各个动作的Q值。

  所谓贝尔曼方程,也被称为动态规划方程,是指数学家理查德·贝尔曼提出的用于解决复杂多阶段问题的公式,通过求解该方程可以找到最优值函数和最优策略。

内部人担忧“威胁人类生存”!OpenAI的神秘重大突破“Q*算法”究竟是什么?

  运行算法的人(或计算机)可以输入一个目标函数,例如“旅行时间最短、成本最低、利润最大、效用最大”等。然后,算法将决定采取何种最佳行动来实现预期结果。

  简单来说,Q学习可以通过探索所有可能的路径,学习到通往预期奖励的最短路径(最短路线),通过试错找到更优化的路径,并随着时间的推移达到优化状态,每次都做出更好的决策。

  据媒体报道,在奥特曼被解雇之前,OpenAI在内部对Q*进行了演示,显示Q*能够解决小学程度的数学问题。

  虽然完成小学数学题听起来没什么出色之处,但需要强调的是,包括GPT-4在内,世界上最先进的大语言模型通常都更擅长基于语言的任务,即使面对加减乘除这样的基础数学都会犯错误。

  如果真如报道所说,Q*有能力处理数学问题并给出明确答案,即使只是小学数学,那也意味着巨大的飞跃。基础数学能力或意味着与人类智能相媲美的推理能力,也意味着OpenAI朝着其设定的AGI目标迈出了一大步。

  另外据一些网友猜测,Q*背后的模型模型可能已经具备自主学习和自我改进的能力,或者能够通过评估其行为的长期后果,在广泛的场景中做出复杂的决策,可能已具备轻微自我意识。

  最乐观、或者最可怕的假设就是,OpenAI已经完成了打造AGI的基础工作。

内部人担忧“威胁人类生存”!OpenAI的神秘重大突破“Q*算法”究竟是什么?

  听起来很离谱,但确实有可能是真的。

  就在一个月前,华尔街见闻曾转载过MIT科技评论对OpenAI首席科学家Ilya Sutskever的专访,他当时称,ChatGPT可能已经有了意识

  Q*会产生哪些后续影响?毁灭人类?

  目前,OpenAI所给出的官方回应是,奥特曼被解雇,与公司的研究进展无关。

  但仍然挡不住网友天马行空的猜想和阴谋论。

  一位Reddit网友说,对于AI界而言,Q*的出现可能就像是,一个人想敲石头生火,敲了几年都没什么成果,结果上礼拜石头突然敲出火星了。

内部人担忧“威胁人类生存”!OpenAI的神秘重大突破“Q*算法”究竟是什么?

  另一位Reddit网友已经开始想象AGI诞生之后的场景了:

AI开始发明东西,破解互联网上的一切加密,写出以人类的数学能力理解不了的程序...

内部人担忧“威胁人类生存”!OpenAI的神秘重大突破“Q*算法”究竟是什么?

  不过,理性地想,AGI的诞生大概率不会这么快。Q*可能只是人类以后漫长探索征程的开始。

  根据天风证券分析师孔蓉的观察,OpenAI近期的招聘进程表明其在进一步增强强化学习系统的决策能力。

OpenAI近期持续引入强化学习和决策算法研究人员。23年7月份新引进的研究员Noam Brown,开展多步推理和多智能体互动方面的研究。

Noam Brown 此前参与发表的工作将语言模型与规划和强化学习算法结合,大幅提升了AI在复杂策略游戏中的表现,开发出第一批在德扑无上限游戏中击败顶级玩家的AI。

  OpenAI 近期于 5 月份发布的研究也表明,调整训练方式和引入更大规模的监督数据,将会显著提升强化学习系统的数学推理能力。OpenAI 引入针对过程的强化学习监督,进一步提升大模型在数据推理与计算的准确性。

  据孔融推测,强化学习与决策算法进步或带来Q*大模型能力突破,GPT4 + 强化学习和决策算法,或能实现更强的AI Agent能力。



Tags:Q*算法   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
内部人担忧“威胁人类生存”!OpenAI的神秘重大突破“Q*算法”究竟是什么?
 据报道,Q*可能具备GPT-4所不具备的基础数学能力,或意味着与人类智能相媲美的推理能力,网友推测,这可能代表OpenAI朝着其设定的AGI目标迈出了一大步。  随着OpenAI CEO奥特曼...【详细内容】
2023-11-24  Search: Q*算法  点击:(211)  评论:(0)  加入收藏
▌简易百科推荐
小红书、视频号、抖音流量算法解析,干货满满,值得一看!
咱们中国现在可不是一般的牛!网上的网友已经破了十个亿啦!到了这个互联网的新时代,谁有更多的人流量,谁就能赢得更多的掌声哦~抖音、小红书、、视频号,是很多品牌必争的流量洼地...【详细内容】
2024-02-23  二手车小胖说    Tags:流量算法   点击:(12)  评论:(0)  加入收藏
雪花算法详解与Java实现:分布式唯一ID生成原理
SnowFlake 算法,是 Twitter 开源的分布式 ID 生成算法。其核心思想就是:使用一个 64 bit 的 long 型的数字作为全局唯一 ID。在分布式系统中的应用十分广泛,且 ID 引入了时间戳...【详细内容】
2024-02-03   一安未来  微信公众号  Tags:雪花算法   点击:(49)  评论:(0)  加入收藏
程序开发中常用的十种算法,你用过几种?
当编写程序时,了解和使用不同的算法对解决问题至关重要。以下是C#中常用的10种算法,每个算法都伴随着示例代码和详细说明。1. 冒泡排序 (Bubble Sort):冒泡排序是一种简单的比...【详细内容】
2024-01-17  架构师老卢  今日头条  Tags:算法   点击:(43)  评论:(0)  加入收藏
百度推荐排序技术的思考与实践
本文将分享百度在推荐排序方面的思考与实践。在整个工业界的推广搜场景上,特征设计通常都是采用离散化的设计,需要保证两方面的效果,一方面是记忆,另一方面是泛化。特征都是通过...【详细内容】
2024-01-09  DataFunTalk  微信公众号  Tags:百度推荐   点击:(73)  评论:(0)  加入收藏
什么是布隆过滤器?如何实现布隆过滤器?
以下我们介绍了什么是布隆过滤器?它的使用场景和执行流程,以及在 Redis 中它的使用,那么问题来了,在日常开发中,也就是在 Java 开发中,我们又将如何操作布隆过滤器呢?布隆过滤器(Blo...【详细内容】
2024-01-05  Java中文社群  微信公众号  Tags:布隆过滤器   点击:(87)  评论:(0)  加入收藏
面向推荐系统的深度强化学习算法研究与应用
随着互联网的快速发展,推荐系统在各个领域中扮演着重要的角色。传统的推荐算法在面对大规模、复杂的数据时存在一定的局限性。为了解决这一问题,深度强化学习算法应运而生。本...【详细内容】
2024-01-04  数码小风向    Tags:算法   点击:(88)  评论:(0)  加入收藏
非负矩阵分解算法:从非负数据中提取主题、特征等信息
非负矩阵分解算法(Non-negativeMatrixFactorization,简称NMF)是一种常用的数据分析和特征提取方法,主要用于从非负数据中提取主题、特征等有意义的信息。本文将介绍非负矩阵分解...【详细内容】
2024-01-02  毛晓峰    Tags:算法   点击:(62)  评论:(0)  加入收藏
再谈前端算法,你这回明白了吗?
楔子 -- 青蛙跳台阶一只青蛙一次可以跳上一级台阶,也可以跳上二级台阶,求该青蛙跳上一个n级的台阶总共需要多少种跳法。分析: 当n=1的时候,①只需要跳一次即可;只有一种跳法,即f(...【详细内容】
2023-12-28  前端爱好者  微信公众号  Tags:前端算法   点击:(107)  评论:(0)  加入收藏
三分钟学习二分查找
二分查找是一种在有序数组中查找元素的算法,通过不断将搜索区域分成两半来实现。你可能在日常生活中已经不知不觉地使用了大脑里的二分查找。最常见的例子是在字典中查找一个...【详细内容】
2023-12-22  小技术君  微信公众号  Tags:二分查找   点击:(78)  评论:(0)  加入收藏
强化学习算法在资源调度与优化中的应用
随着云计算和大数据技术的快速发展,资源调度与优化成为了现代计算系统中的重要问题。传统的资源调度算法往往基于静态规则或启发式方法,无法适应动态变化的环境和复杂的任务需...【详细内容】
2023-12-14  职场小达人欢晓    Tags:算法   点击:(164)  评论:(0)  加入收藏
站内最新
站内热门
站内头条