欢迎访问喜蛋文章网
你的位置:首页 > 读后感 > 文章正文

强化学习超级缝合怪《Easy RL》笔记 第8章 针对连续动作的深度Q网络

时间: 2022-04-06 14:31:13 | 作者:理工科的MBA | 来源: 喜蛋文章网 | 编辑: admin | 阅读: 95次

强化学习超级缝合怪《Easy RL》笔记 第8章 针对连续动作的深度Q网络

很多时候动作并不是离散的,它是一个向量,这个向量的每一个维度都有一个对应的值,这些值都是实数,它是连续的。

a=mathop{argmax}_a;Q(s,a)

假如a是连续的,我们无法穷举所有可能的连续动作,试试看哪一个连续动作可以让Q值最大。

8.1 方案1:对动作进行采样

我们可以采样出N个可能的a:{a_1,a_2,cdots,a_N},把它们一个一个地代入Q函数,看谁的Q值最大。

8.2 方案2:梯度上升

我们把a当作参数,要找一组a去最大化Q函数,就用梯度上升去更新a的值,最后看看能不能找到一个a最大化Q函数(目标函数)。

8.3 方案3:设计网络架构

通常输入状态pmb{s}是图像,我们可以用向量或矩阵来表示它。输入pmb{s},Q函数会输出向量pmb{mu}(pmb{s})、矩阵pmb{Sigma}(pmb{s})和标量V(pmb{s})。Q函数根据输入pmb{s}pmb{a}​来决定输出值。

Q(pmb{s},pmb{a})= -(pmb{a}-pmb{mu}(pmb{s}))^toppmb{Sigma}(pmb{s})(pmb{a}-pmb{mu}(pmb{s}))+V(pmb{s})

8.4 方案4:不使用深度Q网络

文章标题: 强化学习超级缝合怪《Easy RL》笔记 第8章 针对连续动作的深度Q网络
文章地址: http://www.xdqxjxc.cn/duhougan/135952.html
Top