第十一章TRPO算法

发表于2025-07-15|更新于2026-02-05|书籍笔记动手学强化学习

TRPO算法的重点体现在策略函数的更新方式上

策略目标部分理论推导请参考强化学习教程相关章节

策略函数差异的约束主要体现在线性搜索部分

共轭梯度法的讲解见求解对称正定线性方程组的共轭梯度法

文章作者: 沉迷修仙の雯欂

文章链接: https://wblv66.top/2025/07/15/动手学强化学习/第十一章TRPO算法/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源雯欂の修仙笔记！

数据加载中