location_on 首页 keyboard_arrow_right 资讯 keyboard_arrow_right 正文

OpenAI提出启发式学习HL新范式:彻底告别梯度更新,仅靠AI编写代码实现决策进化

资讯 2026-05-10 remove_red_eye 14 text_decreasetext_fieldstext_increase

5月10日消息,据量子位报道,OpenAI后训练核心研究员翁家翌(Jiayi Weng)以个人名义正式提出一种全新的强化学习范式——启发式学习(Heuristic Learning, HL)。该范式的颠覆性在于,整个学习过程完全摒弃了传统的梯度下降神经网络参数更新,转而依靠GPT-5.4驱动的Codex自主迭代程序代码来完成决策优化,这为突破当前深度强化学习的三大核心瓶颈提供了全新路径。

传统深度强化学习长期遵循以神经网络为决策核心、以梯度更新为优化手段的固定范式,但这种架构下始终存在灾难性遗忘决策黑箱不可解释以及样本效率低下三大难题。翁家翌提出的HL范式将决策逻辑从隐式的神经网络权重彻底迁移至离散的程序空间,以代码编辑替代梯度优化,通过显式的符号规则实现状态与动作的映射。在此前公布的实验测试中,由GPT-5.4驱动的Codex完全不需要被重新训练,而是通过反复读取失败录像、分析日志并自主修改Python策略代码,便使经典游戏Breakout的得分从初始的387分一路迭代至864分的理论满分,全程没有任何神经网络被训练。

从技术层面看,HL框架下的AI所维护的已不再是单一策略文件,而是一整套包含显式状态检测器、规则逻辑、测试用例、回归检查、失败记录与版本历史的完整智能化软件系统。在每次迭代中,Codex会审视系统表现并做出结构性调整,旧有能力不会被覆盖,而是封装为模块和测试,实现了知识的可追溯、可验证与可传承。在包含57款经典游戏的Atari 57基准测试中,HL在统一环境交互步数下的中位表现已与主流PPO算法持平,并在Asterix、Jamesbond等多款游戏中超越人类玩家水平。在更具挑战性的MuJoCo连续控制任务中,四足机器人Ant的评分突破6000分,HalfCheetah猎豹仿真任务的平均得分更高达11836分,展现出对高维连续动作空间的强适配能力。

不过,翁家翌亦明确指出当前HL范式的边界所在,表示纯代码规则尚无法解决ImageNet等复杂视觉任务,但其在需要长期自适应调整的策略持续迭代场景中展现出显著优势。研究展望指出,未来方向在于探索神经网络与HL的融合架构:底层由轻量神经网络负责视觉等感知任务,中层利用HL处理实时逻辑与安全规则,顶层由大模型审查日志并周期性更新底层模型。这一范式变迁或将重构在线学习与持续学习的解决路径,标志着AI学习机制正从参数优化向软件系统工程的深刻转型。

深度求索V4.1定档六月 DeepSeek新版本引期待
« 上一篇 2026-05-10
OpenAI推出GPT-5.5-Cyber预览版,聚焦网络安全场景
下一篇 » 2026-05-10