导航菜单

奥特曼被开除四天前研究人员警告AI发现可能威胁全人类

导读 随着OpenAI CEO奥特曼回归,宫斗大戏告一段落,但仍留下了许多未接的谜题。其中最为关键的,就是当初奥特曼为何会被董事会解雇。昨日,有媒体透露,就在奥特曼被开除四天前

昨天,有媒体透露,就在奥特曼被解雇前四天,多名研究人员致信董事会,警告一项强大的人工智能发现(Q*)可能威胁全人类。

圆通老板管不住小舅子套利的手

《梅根》剧照

OpenAI CTO Mira Murati 此前在给员工的内部信中提到了一个代号为“Q*”的项目。 据她说,该项目是“董事会对奥特曼不满的众多因素之一”。

据不少媒体猜测,Q*极大地加速了OpenAI对AGI的实施,但Altman可能还没有向董事会详细透露Q*的进展程度。 这也符合董事会在解雇奥特曼时所说的话:“在与董事会沟通时并不总是坦诚相待。”

就在被解雇之前,奥特曼在一次公开活动中说道:

“在 OpenAI 的历史上,我们实现了 4 项突破,最近一次是在过去几周内。当我们揭开无知的面纱并推动发现前沿前进时,我一直在房间里。”

圆通老板管不住小舅子套利的手

所谓第四个突破可能指的是Q*项目。

Q*是什么?

Q*是什么?

Q* 发音为 Q 星。 目前,OpenAI 尚未泄露有关 Q* 的详细信息。

据一些业内人士推测,它可能是机器学习算法Q-Learning(Q-learning)的代名词。 它可能是OpenAI借助Q-learning算法创建的新模型的代号,也可能是相关项目的名称。

科技博客PC Guide指出,OpenAI使用的Q*很可能指的是贝尔曼方程中的最优值函数。 Q*可能意味着OpenAI已经找到或接近效率优化算法的最优解。

天风证券分析师孔融表示:

圆通老板管不住小舅子套利的手

Q-learning是一种基于强化学习的算法,用于解决马尔可夫决策过程中的最优控制问题。 其目标是让智能体通过学习最优策略,在未知环境中做出最佳选择。

Q学习根据贝尔曼方程更新状态-动作对应的Q值,逼近最优值函数。 代理与环境交互并观察新的状态和奖励,以更新执行每个动作的 Q 值。

所谓贝尔曼方程,又称动态规划方程,是指数人理查德·贝尔曼提出的解决复杂多阶段问题的公式。 通过求解该方程,可以找到最优价值函数和最优策略。

运行算法的人(或计算机)可以输入一个目标函数,例如“最小化旅行时间、最小化成本、最大化利润、最大化效用”等。然后算法决定采取什么最佳行动来实现期望的结果。

简单来说,Q-learning可以通过探索所有可能的路径来学习达到预期奖励的最短路径(最短路线),通过试错找到更优化的路径,并随着时间的推移达到优化状态,每次都做出更好的决策。

据媒体报道,在奥特曼被解雇之前,OpenAI对Q*进行了内部演示,表明Q*可以解决小学水平的数学问题。

虽然完成小学数学题听起来可能并不出色,但需要强调的是,包括 GPT-4 在内的世界上最先进的大型语言模型通常更擅长基于语言的任务,即使在面临加减乘除时也是如此。分配。 基础数学中存在错误。

如果像报道的那样,Q*有能力处理数学问题并给出明确的答案,即使只是小学数学,那也将代表着巨大的飞跃。 基础数学能力或许意味着堪比人类智能的推理能力,也意味着OpenAI朝着AGI目标迈出了一大步。

此外,有网友猜测,Q*背后的模型可能已经具备独立学习和自我完善的能力,或者可能能够通过评估其行为的长期后果,在广泛的场景中做出复杂的决策,并且可能有轻微的自我意识。 。

最乐观或者最可怕的假设是OpenAI已经完成了构建AGI的基础工作。

圆通老板管不住小舅子套利的手

这听起来很离谱,但这可能是真的。

就在一个月前,《华尔街日报》转载了《麻省理工科技评论》对 OpenAI 首席科学家 Ilya Sutskever 的独家专访,后者当时表示,ChatGPT 可能已经有了意识。

圆通老板管不住小舅子套利的手

Q*的后续影响是什么? 毁灭人类?

目前,OpenAI官方给出的回应是,奥特曼的解雇与公司的研究进展无关。

但依然阻止不了网友们的疯狂​​猜想和阴谋论。

一位Reddit网友表示,对于AI世界来说,Q*的出现可能就像一个人试图敲石头生火。 敲了几年,也没有结果。 结果上周石头突然擦出了火花。

圆通老板管不住小舅子套利的手

另一位 Reddit 用户已经开始想象 AGI 诞生后的场景:

人工智能开始发明事物,打破互联网上的所有加密,编写人类数学能力无法理解的程序……

圆通老板管不住小舅子套利的手

圆通老板管不住小舅子套利的手

不过,理性思考,AGI大概率不会这么快诞生。 Q*或许只是人类未来漫长探索之旅的开始。

据天风证券分析师孔融观察,OpenAI近期的招聘过程表明其正在进一步增强强化学习系统的决策能力。

OpenAI近期持续引入强化学习和决策算法研究人员。 2023年7月新引进的研究员Noam Brown,从事多步推理和多智能体交互方面的研究。

Noam Brown此前发表的作品将语言模型与规划和强化学习算法相结合,极大地提高了AI在复杂策略游戏中的表现,并开发出了第一批在德州扑克无限注游戏中击败顶级玩家的AI。

OpenAI最近在5月份发布的研究也表明,调整训练方法和引入更大规模的监督数据将显着提高强化学习系统的数学推理能力。 OpenAI引入针对特定流程的强化学习监督,进一步提高大型模型在数据推理和计算方面的准确性。

孔融推测,强化学习和决策算法的进步可能会带来Q*max模型能力的突破,而GPT4+强化学习和决策算法可能会实现更强的AI Agent能力。

本文来自微信公众号“华尔街新闻”(ID:wallstreetcn),作者:常家帅,36氪经授权发布。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢:

最新文章: