第十一章TRPO算法
TRPO算法的重点体现在策略函数的更新方式上
策略目标部分理论推导请参考强化学习教程相关章节
策略函数差异的约束主要体现在线性搜索部分
共轭梯度法的讲解见求解对称正定线性方程组的共轭梯度法
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 雯欂の修仙笔记!
TRPO算法的重点体现在策略函数的更新方式上
策略目标部分理论推导请参考强化学习教程相关章节
策略函数差异的约束主要体现在线性搜索部分
共轭梯度法的讲解见求解对称正定线性方程组的共轭梯度法