你的位置：首页 > 读后感 > 文章正文

Intro to RL Chapter 5: Mante Carlo Methods

时间: 2021-05-03 14:52:09 | 作者：斑马 | 来源: 喜蛋文章网 | 编辑: admin | 阅读: 99次

Monte Carlo methods不要求对环境的信息，而是从真实的experience中学习（state, action, reward序列）。我们只需要一个model来产生sample transitions，而不是精确完整的分布。为了保证有well-defined returns，我们讨论episodic problems。考虑以episode为单位evaluate、update policy，而不是step-by-step (online)。Monte Carlo methods很像bandit methods，但有很多states、actions，policy和state不是stationary。为了处理nonstationary，采用chapter 4中DP方法的GPI。DP中用model的expected value来更新value function，本章中，用experience来更新value function。

5.1 Monte Carlo Prediction

首先考虑state-value function。Monte Carlo methods从experience中计算平均state value，sample越多，更趋近于真实值。比如 v_pi (s)

。一个episode中可能经过很多次

，第一次叫first visit。Frist-visit MC method用first visit后得到的reward来估计 v_pi (s)

，every-visit MC method用每一次visit得到的结果来估计。这两种方法很像，只是有点理论上的性质差异。第一种研究的多。

当visit数趋于

，两种方法都converge to v_pi (s)

。Monte Carlo methods的estimates都是independent，不依赖于下一步，也就是不是bootstrap。估计state value和state的数量无关，适用于只求一部分state value的情况。这是Monte Carlo methods的第三个优势（另两个是从experience中和模拟的experience中学习）

5.2 Monte Carlo Estimation of Action Values

若model未知，action value比state value 有用，毕竟单靠state value不能确定policy。估计action value和估计state value的方法一样。若policy是deterministic，那么很多state-action都没有被选择，我们不知道这些pair的action value，也就无法update policy。这是一个maintaining exploration的问题。一个解决办法是从所有state-action pair都开始一次，当sample无限次，每个pair都被经历无限次，称为exploring starts。更常见的方法是用stochastic policy，每一个action的概率都不为0。

5.3 Monte Carlo Control

有了state value和action value，就可以找到policy了。方法和DP一样，都是用generalized policy iteration (GPI) 方法：policy evaluation + policy improvement。用action value来选择policy，用exploring starts方法保证exploration： $pi (s) = argmax_a q(s, a) tag{5.1}$ 根据之前讨论的，policy会strictly improved，除非达到optimal policy。为了让Monte Carlo methods能用，我们需要解决两个离谱的assumptions：exploring starts和用无限个episode来做policy evaluation。首先看无限个episodes。两个方法：一是当误差足够小时就停止。二是不做完全的policy evaluation，就像DP中evaluation只sweep一次。

在Monte Carlo ES中，不论是什么policy的action value，都被存下来计算。很明显Monte Carlo ES不converge到suboptimal policy，只有到optimal的时候才stabilize。convergence看起来是必然的，但是未被证明过，这是一个RL问题中一个很基础的开放问题。

5.4 Monte Carlo Control without Exploting Starts

文章标题: Intro to RL Chapter 5: Mante Carlo Methods

文章地址: http://www.xdqxjxc.cn/duhougan/105266.html

文章标签：读书笔记

[Intro to RL Chapter 5: Mante Carlo Methods] 相关文章推荐：

2023-11-24 11:00:14写好读书笔记对写作有哪些帮助
2023-11-09 01:01:18读书笔记的摘要和主要内容概述的区别
2023-10-30 19:00:44读书笔记对于阅读的重要性体现在哪里
2023-10-18 13:00:23用平板做读书笔记，推荐哪个软件
2023-09-20 11:00:39读书笔记就是摘抄句子吗
2023-08-29 17:01:33写读书笔记可以抄正在学的课文吗
2023-08-03 11:01:44你对读书笔记或者日记这种手写文字有怎样的认知是不是和我一样有一种戒不掉的隐你知道为什么么
2023-07-14 19:00:23如何写读书笔记，
2023-06-30 23:00:14如何教三年级学生学会写读书笔记
2023-06-29 12:01:30怎样引导孩子写读书笔记的感悟思考

最新读后感

热门读后感

Top

全站搜索