文章
28
标签
29
分类
3
首页
时间轴
标签
分类
雯欂の修仙笔记
符号说明
搜索
首页
时间轴
标签
分类
符号说明
发表于
2025-05-21
|
更新于
2025-05-21
|
强化学习教程
|
浏览量:
随机变量用大写字母表示如
X
X
X
随机变量序列用小写字母表示如
s
s
s
文章作者:
沉迷修仙の雯欂
文章链接:
https://wblv66.top/2025/05/21/强化学习教程/符号说明/
版权声明:
本博客所有文章除特别声明外,均采用
CC BY-NC-SA 4.0
许可协议。转载请注明来源
雯欂の修仙笔记
!
上一篇
第二章马尔可夫决策过程
在强化学习中,智能体与化境的交互过程可以通过马尔可夫决策过程来表示,马尔可夫决策过程是强化学习的基本框架 本章首先介绍马尔可夫过程(Markov process,MP)以及马尔科夫奖励过程(Markov reward process,MRP)。二者比较得到马尔科夫决策过程(Markov decision process,MDP)。其次介绍马尔科夫决策过程中的策略评估(policy evaluation)。最后介绍马尔科夫决策过程中的控制,分为策略迭代(policy iteration)和价值迭代(value iteration) 1. 马尔可夫过程 1.1 马尔可夫性质 马尔可夫性质(Markov property)是指未来状态的条件概率分布仅依赖于当前状态。假设X0,X1,⋯ ,XtX_0,X_1,\cdots,X_tX0,X1,⋯,Xt构成随机过程,如果具有马尔可夫性质则 p(Xt+1=xt+1∣X0:t=x0:t)=p(Xt+1=xt+1∣Xt=xt)p \left( X_{t+1}=x_{t+1} | X_{0:t}=x_{0:t} \right) = p \lef...
下一篇
Linux创建新用户
1. 创建用户 1.1 法一:使用 adduser 命令创建新用户 在某些基于Debian的Linux发行版中,可以使用adduser命令,会提供交互式操作。 sudo adduser 新用户名 1.2 法二:使用 useradd 命令创建新用户 在 Linux 系统中,可以使用useradd这个通用命令来创建新用户 sudo useradd -m -s /bin/bash 新用户名 -d 指定用户的家目录 -s 指定用户的默认shell,可写为/bin/zsh -m 为新用户在 /home 目录下创建一个新的家目录 给新用户设置一个密码 sudo passwd 新用户名 2. 赋予root权限 2.1 法一:使用 adduser 命令 在某些基于Debian的Linux发行版中,可以使用adduser命令 sudo adduser newuser sudo 2.2 法二:修改/etc/sudoers文件 sudo vim /etc/sudoers 在文件中找到如下命令 ## Allow root to run any commands anywhere root AL...
沉迷修仙の雯欂
文章
28
标签
29
分类
3
公告
This is my Blog
搜索
数据加载中