雯欂の修仙笔记

更新于2026-02-05|书籍笔记强化学习教程

1. 策略梯度算法强化学习有3个组成部分：演员（actor）、环境和奖励函数。环境与奖励函数不是我们可以控制的，它们是在开始学习之前给定的。我们唯一需要做的就是调整演员里面的策略，使得演员可以得到最大的奖励策略一般记作π\piπ。假设我们使用深度学习来做强化学习，策略就是一个网络。网络里面有一些参数，我们用θ\thetaθ来代表π\piπ的参数。网络的输入是智能体看到的东西，输出是我们可以执行的动作，有几个动作，输出层就有几个神经元我们把初始状态记作s1s_1s1，把第一次执行的动作记作a1a_1a1，把第一次执行动作以后得到的奖励记作r1r_1r1。不同的人有不同的记法，有人觉得在s1s_1s1执行a1a_1a1得到的奖励应该记为r2r_2r2，这两种记法都可以一场游戏称为一个回合。将这场游戏里面得到的所有奖励都加起来，就是总奖励（total reward），也就是回报，我们用RRR来表示它在一场游戏里面，我们把环境输出的sss与演员输出的动作aaa全部组合起来，就是一个轨迹，即 τ={s1,a1,s2,a2,⋯ ,st,at}\tau = \{ s_1,...