location_on 首页 keyboard_arrow_right 资讯 keyboard_arrow_right 正文

OpenAI提出启发式学习HL新范式：彻底告别梯度更新，仅靠AI编写代码实现决策进化

资讯 2026-05-10 48

5月10日消息，据量子位报道，OpenAI后训练核心研究员翁家翌（Jiayi Weng）以个人名义正式提出一种全新的强化学习范式——启发式学习（Heuristic Learning, HL）。该范式的颠覆性在于，整个学习过程完全摒弃了传统的梯度下降与神经网络参数更新，转而依靠GPT-5.4驱动的Codex自主迭代程序代码来完成决策优化，这为突破当前深度强化学习的三大核心瓶颈提供了全新路径。

传统深度强化学习长期遵循以神经网络为决策核心、以梯度更新为优化手段的固定范式，但这种架构下始终存在灾难性遗忘、决策黑箱不可解释以及样本效率低下三大难题。翁家翌提出的HL范式将决策逻辑从隐式的神经网络权重彻底迁移至离散的程序空间，以代码编辑替代梯度优化，通过显式的符号规则实现状态与动作的映射。在此前公布的实验测试中，由GPT-5.4驱动的Codex完全不需要被重新训练，而是通过反复读取失败录像、分析日志并自主修改Python策略代码，便使经典游戏Breakout的得分从初始的387分一路迭代至864分的理论满分，全程没有任何神经网络被训练。

从技术层面看，HL框架下的AI所维护的已不再是单一策略文件，而是一整套包含显式状态检测器、规则逻辑、测试用例、回归检查、失败记录与版本历史的完整智能化软件系统。在每次迭代中，Codex会审视系统表现并做出结构性调整，旧有能力不会被覆盖，而是封装为模块和测试，实现了知识的可追溯、可验证与可传承。在包含57款经典游戏的Atari 57基准测试中，HL在统一环境交互步数下的中位表现已与主流PPO算法持平，并在Asterix、Jamesbond等多款游戏中超越人类玩家水平。在更具挑战性的MuJoCo连续控制任务中，四足机器人Ant的评分突破6000分，HalfCheetah猎豹仿真任务的平均得分更高达11836分，展现出对高维连续动作空间的强适配能力。

不过，翁家翌亦明确指出当前HL范式的边界所在，表示纯代码规则尚无法解决ImageNet等复杂视觉任务，但其在需要长期自适应调整的策略持续迭代场景中展现出显著优势。研究展望指出，未来方向在于探索神经网络与HL的融合架构：底层由轻量神经网络负责视觉等感知任务，中层利用HL处理实时逻辑与安全规则，顶层由大模型审查日志并周期性更新底层模型。这一范式变迁或将重构在线学习与持续学习的解决路径，标志着AI学习机制正从参数优化向软件系统工程的深刻转型。

深度求索V4.1定档六月 DeepSeek新版本引期待

« 上一篇 2026-05-10

OpenAI推出GPT-5.5-Cyber预览版，聚焦网络安全场景

下一篇 » 2026-05-10

OpenAI提出启发式学习HL新范式：彻底告别梯度更新，仅靠AI编写代码实现决策进化

相关推荐

小卡

内容举报