微信联系方式
微信二维码

扫描二维码添加微信

微信号:18103268866

QQ联系方式
QQ二维码

扫描二维码添加QQ

QQ号:3525642302

×
微信扫码查看

请使用微信扫描二维码查看当前页面

扫描二维码后可在微信中分享给好友

新闻动态

AI已迷失方向?强化学习教父Sutton最新发布OaK架构,挑战当前AI范式,提出超级智能新构想

AI科技大本营 2025-08-26 2 次浏览 技术分享 CSDN

有趣的是,使用选项模型进行规划,其数学形式与传统的基于单步动作的价值迭代惊人地相似,只是将“动作”替换为了“选项”,将“单步奖励”替换为了“选项执行期间的累积奖励”。这无疑是一个意义深远的智力里程碑,其影响将是革命性的。所有这一切,都在一个良性的、开放式的发现循环中协同工作:状态特征的发现,激发了问题、选项和模型的发现,而这些新产生的组件又反过来促进了新的、更抽象特征的形成。此外,在另一篇《奖励即足够》的论文中,我们进一步论证了,在一个足够复杂的世界里,即使是简单的奖励信号也足以引出智能的所有属性。