欢迎访问喜蛋文章网
你的位置:首页 > 读后感 > 文章正文

Intro to RL Chapter 5: Mante Carlo Methods

时间: 2021-05-03 14:52:09 | 作者:斑马 | 来源: 喜蛋文章网 | 编辑: admin | 阅读: 96次

Intro to RL Chapter 5: Mante Carlo Methods

Monte Carlo methods不要求对环境的信息,而是从真实的experience中学习(state, action, reward序列)。我们只需要一个model来产生sample transitions,而不是精确完整的分布。为了保证有well-defined returns,我们讨论episodic problems。考虑以episode为单位evaluate、update policy,而不是step-by-step (online)。Monte Carlo methods很像bandit methods,但有很多states、actions,policy和state不是stationary。为了处理nonstationary,采用chapter 4中DP方法的GPI。DP中用model的expected value来更新value function,本章中,用experience来更新value function。

5.1 Monte Carlo Prediction

首先考虑state-value function。Monte Carlo methods从experience中计算平均state value,sample越多,更趋近于真实值。比如 v_pi (s) 。一个episode中可能经过很多次 s ,第一次叫first visit。Frist-visit MC method用first visit后得到的reward来估计 v_pi (s)every-visit MC method用每一次visit得到的结果来估计。这两种方法很像,只是有点理论上的性质差异。第一种研究的多。当visit数趋于 infty ,两种方法都converge to v_pi (s) 。Monte Carlo methods的estimates都是independent,不依赖于下一步,也就是不是bootstrap。估计state value和state的数量无关,适用于只求一部分state value的情况。这是Monte Carlo methods的第三个优势(另两个是从experience中和模拟的experience中学习)

5.2 Monte Carlo Estimation of Action Values

若model未知,action value比state value 有用,毕竟单靠state value不能确定policy。估计action value和估计state value的方法一样。若policy是deterministic,那么很多state-action都没有被选择,我们不知道这些pair的action value,也就无法update policy。这是一个maintaining exploration的问题。一个解决办法是从所有state-action pair都开始一次,当sample无限次,每个pair都被经历无限次,称为exploring starts。更常见的方法是用stochastic policy,每一个action的概率都不为0。

5.3 Monte Carlo Control

有了state value和action value,就可以找到policy了。方法和DP一样,都是用generalized policy iteration (GPI) 方法:policy evaluation + policy improvement。用action value来选择policy,用exploring starts方法保证exploration: pi (s) =  argmax_a q(s, a)  tag{5.1} 根据之前讨论的,policy会strictly improved,除非达到optimal policy。为了让Monte Carlo methods能用,我们需要解决两个离谱的assumptions:exploring starts和用无限个episode来做policy evaluation。首先看无限个episodes。两个方法:一是当误差足够小时就停止。二是不做完全的policy evaluation,就像DP中evaluation只sweep一次。在Monte Carlo ES中,不论是什么policy的action value,都被存下来计算。很明显Monte Carlo ES不converge到suboptimal policy,只有到optimal的时候才stabilize。convergence看起来是必然的,但是未被证明过,这是一个RL问题中一个很基础的开放问题。

5.4 Monte Carlo Control without Exploting Starts

文章标题: Intro to RL Chapter 5: Mante Carlo Methods
文章地址: http://www.xdqxjxc.cn/duhougan/105266.html
文章标签:读书笔记
Top