第01章:强化学习介绍
文章目录
- author: zhouyongsdzh@foxmail.com
- date: 2016-08-12
- weibo: @周永_52ML
符号定义
| 符号 | 物理意义 | |
|---|---|---|
| $\mathcal{S}$ | (有限的)状态集合 | |
| $\mathcal{A}$ | (有限的)动作集合 | |
| $\mathcal{P}$ | 状态转移概率 | |
| $R$ | 奖赏 Reward | |
| $\gamma$ | 折扣因子,$\gamma \in [0,1]$ | |
| $S_t$ | $t$时刻的状态 ($S_t \in \mathcal{S}$) | |
| $A_t$ | $t$时刻的动作 ($A_t \in \mathcal{A}$) | |
| $\pi(a\ | s)$ | 策略函数,状态到动作的映射 |
| $G_t$ | $t$时刻开始回报序列,即$G_t=R_{t+1} + \gamma R_{t+2} + …$ | |
| $v_{\pi}(s)$ | 状态值函数,在策略$\pi$下状态$s$的值函数 | |
| $q_{\pi}(s,a)$ | 状态值函数,在策略$\pi$下状态$s$采取动作$a$值函数 |
