第01章:强化学习介绍
文章目录
- author: zhouyongsdzh@foxmail.com
- date: 2016-08-12
- weibo: @周永_52ML
符号定义
符号 | 物理意义 | |
---|---|---|
$\mathcal{S}$ | (有限的)状态集合 | |
$\mathcal{A}$ | (有限的)动作集合 | |
$\mathcal{P}$ | 状态转移概率 | |
$R$ | 奖赏 Reward | |
$\gamma$ | 折扣因子,$\gamma \in [0,1]$ | |
$S_t$ | $t$时刻的状态 ($S_t \in \mathcal{S}$) | |
$A_t$ | $t$时刻的动作 ($A_t \in \mathcal{A}$) | |
$\pi(a\ | s)$ | 策略函数,状态到动作的映射 |
$G_t$ | $t$时刻开始回报序列,即$G_t=R_{t+1} + \gamma R_{t+2} + …$ | |
$v_{\pi}(s)$ | 状态值函数,在策略$\pi$下状态$s$的值函数 | |
$q_{\pi}(s,a)$ | 状态值函数,在策略$\pi$下状态$s$采取动作$a$值函数 |