第二章马尔可夫决策过程
在强化学习中,智能体与化境的交互过程可以通过马尔可夫决策过程来表示,马尔可夫决策过程是强化学习的基本框架
本章首先介绍马尔可夫过程(Markov process,MP)以及马尔科夫奖励过程(Markov reward process,MRP)。二者比较得到马尔科夫决策过程(Markov decision process,MDP)。其次介绍马尔科夫决策过程中的策略评估(policy evaluation)。最后介绍马尔科夫决策过程中的控制,分为策略迭代(policy iteration)和价值迭代(value iteration)
1. 马尔可夫过程
1.1 马尔可夫性质
马尔可夫性质(Markov property)是指未来状态的条件概率分布仅依赖于当前状态。假设构成随机过程,如果具有马尔可夫性质则
其中,表示变量集合,表示状态序列
马尔可夫性质也可以描述为给定当前状态时,将来的状态与过去状态是条件独立的
此处补充随机变量的定义
随机变量表示随机试验各种结果的实值单值函数,即随机过程的结果到数值的映射
假设我们有一个抛硬币的随机过程。随机变量将随机过程(掷硬币)的结果(正、反)映射到数值(1、0)
马尔可夫链
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 雯欂の修仙笔记!