文章
43
标签
29
分类
5
首页
时间轴
标签
分类
雯欂の修仙笔记
第十章Actor-Critic算法
搜索
首页
时间轴
标签
分类
第十章Actor-Critic算法
发表于
2025-07-14
|
更新于
2025-08-12
|
动手学强化学习
虽然采用时序差分法来指导网络学习,但是此算法仍是在一个episode结束后才进行网络更新
文章作者:
沉迷修仙の雯欂
文章链接:
https://wblv66.top/2025/07/14/动手学强化学习/第十章Actor-Critic算法/
版权声明:
本博客所有文章除特别声明外,均采用
CC BY-NC-SA 4.0
许可协议。转载请注明来源
雯欂の修仙笔记
!
上一篇
第五章近端策略优化
下一篇
第十一章TRPO算法
TRPO算法的重点体现在策略函数的更新方式上 策略目标部分理论推导请参考强化学习教程相关章节 策略函数差异的约束主要体现在线性搜索部分 共轭梯度法的讲解见求解对称正定线性方程组的共轭梯度法
沉迷修仙の雯欂
文章
43
标签
29
分类
5
公告
This is my Blog
搜索
数据加载中