AI已迷失方向?强化学习教父Sutton最新发布OaK架构,挑战当前AI范式,提出超级智能新构想

有趣的是,使用选项模型进行规划,其数学形式与传统的基于单步动作的价值迭代惊人地相似,只是将“动作”替换为了“选项”,将“单步奖励”替换为了“选项执行期间的累积奖励”。这无疑是一个意义深远的智力里程碑,其影响将是革命性的。所有这一切,都在一个良性的、开放式的发现循环中协同工作:状态特征的发现,激发了问题、选项和模型的发现,而这些新产生的组件又反过来促进了新的、更抽象特征的形成。此外,在另一篇《奖励即足够》的论文中,我们进一步论证了,在一个足够复杂的世界里,即使是简单的奖励信号也足以引出智能的所有属性。