强化学习超级缝合怪《Easy RL》笔记第8章针对连续动作的深度Q网络

时间: 2022-04-06 14:31:13 | 作者：理工科的MBA | 来源: 喜蛋文章网 | 编辑: admin | 阅读: 98次

很多时候动作并不是离散的，它是一个向量，这个向量的每一个维度都有一个对应的值，这些值都是实数，它是连续的。
$a=mathop{argmax}_a;Q(s,a)$
假如a是连续的，我们无法穷举所有可能的连续动作，试试看哪一个连续动作可以让Q值最大。

我们可以采样出N个可能的 $a:{a_1,a_2,cdots,a_N}$ ，把它们一个一个地代入Q函数，看谁的Q值最大。

我们把a当作参数，要找一组a去最大化Q函数，就用梯度上升去更新a的值，最后看看能不能找到一个a最大化Q函数（目标函数）。

通常输入状态 pmb{s} 是图像，我们可以用向量或矩阵来表示它。输入 pmb{s} ，Q函数会输出向量 pmb{mu}(pmb{s}) 、矩阵 pmb{Sigma}(pmb{s}) 和标量 V(pmb{s}) 。Q函数根据输入 pmb{s} 与 pmb{a} 来决定输出值。

$Q(pmb{s},pmb{a})= -(pmb{a}-pmb{mu}(pmb{s}))^toppmb{Sigma}(pmb{s})(pmb{a}-pmb{mu}(pmb{s}))+V(pmb{s})$

文章标题: 强化学习超级缝合怪《Easy RL》笔记第8章针对连续动作的深度Q网络

文章地址: http://www.xdqxjxc.cn/duhougan/135952.html

最新读后感

热门读后感

Top

全站搜索