avatar
文章
43
标签
29
分类
5
首页
时间轴
标签
分类
Logo雯欂の修仙笔记第十一章TRPO算法
搜索
首页
时间轴
标签
分类

第十一章TRPO算法

发表于2025-07-15|更新于2025-08-12

TRPO算法的重点体现在策略函数的更新方式上

策略目标部分理论推导请参考强化学习教程相关章节

策略函数差异的约束主要体现在线性搜索部分

共轭梯度法的讲解见求解对称正定线性方程组的共轭梯度法

文章作者: 沉迷修仙の雯欂
文章链接: https://wblv66.top/2025/07/15/动手学强化学习/第十一章TRPO算法/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 雯欂の修仙笔记!
cover of previous post
上一篇
第十章Actor-Critic算法
虽然采用时序差分法来指导网络学习,但是此算法仍是在一个episode结束后才进行网络更新
cover of next post
下一篇
Livox-mid360激光雷达运行fast-lio2
所用的环境: Linux版本:Ubuntu 20.04 ROS版:Noetic 1. mid-360配置 将mid-360通过网口与电脑相连,然后给mid360上电 设置有线连接的IPv4地址: 地址设为192.168.1.50 子网掩码设为255.255.255.0 网关设为192.168.1.1 2. 安装Livox SDK2 2.1 源码安装 git clone https://github.com/Livox-SDK/Livox-SDK2.git cd Livox-SDK2/ mkdir build && cd build cmake .. make -j sudo make install 2.2 运行Livox-SDK2示例 进入Livox-SDK2/samples/livox_lidar_quick_start这个文件夹,找到mid360_config.json,把 host_ip 改成 192.168.1.50 进入Livox-SDK2/build/samples/livox_lidar_quick_start这个文件夹运行如下代码 ./...
avatar
沉迷修仙の雯欂
文章
43
标签
29
分类
5
公告
This is my Blog
©2025 By 沉迷修仙の雯欂框架 Hexo 7.3.0|主题 Butterfly 5.4.0-b2
冀ICP备2025114707号-1 京公网安备11010802045820号
搜索
数据加载中