时间: 2022-04-06 14:31:13 | 作者:理工科的MBA | 来源: 喜蛋文章网 | 编辑: admin | 阅读: 94次
假如a是连续的,我们无法穷举所有可能的连续动作,试试看哪一个连续动作可以让Q值最大。
我们可以采样出N个可能的,把它们一个一个地代入Q函数,看谁的Q值最大。
我们把a当作参数,要找一组a去最大化Q函数,就用梯度上升去更新a的值,最后看看能不能找到一个a最大化Q函数(目标函数)。
通常输入状态是图像,我们可以用向量或矩阵来表示它。输入,Q函数会输出向量、矩阵和标量。Q函数根据输入与来决定输出值。
全站搜索