马尔科夫决策过程贝尔曼方程与价值函数究竟是什么

2026-03-12 11:00:14 13732 次阅读

马尔科夫决策过程的核心要素是什么

说起马尔科夫决策过程（MDP），其实它就是一个用来描述智能体如何在环境中做决策的数学模型。你可以把它理解成“游戏规则”，具体包含几个重要部分：

状态空间S：这就是说所有可能出现的环境或情况，想象成游戏中的各种场景。
决策空间A：在每个状态下，你可以采取的行动选项，比如“左转”、“右转”或“停下”。
状态转移概率P：告诉你从一个状态跑到另一个状态的概率，像是掷骰子决定下一步路怎走。
奖励函数R：每个状态和行动都会给你一个“分数”，这就像游戏里的奖励，越高越好。
折扣因子γ：它帮助你平衡现在和未来的奖励，让你不光贪眼前的小甜头，还能抓住远方的大蛋糕。

总体来说，MDP的任务就是找到一个“策略”π，指导你在每个状态该干啥，目的只有一个——让你拿到尽可能多的“奖励”。

价值函数和奖励函数

贝尔曼方程与价值函数到底是啥意思

好了，说到强化学习，贝尔曼方程和价值函数这可是重头戏，稍微啰嗦几句，保证你听明白：

价值函数V(s)：它用来告诉你——在特定状态s下，如果你乖乖按照某个策略走，最终能拿到多少预期奖励。简单说，就是预测未来的“收益预报”。
贝尔曼方程的表达式：

$$V(s) = r(s,a) + \gamma \sum p(s' | s, a) V(s')$$

这句公式其实在干嘛？它就是说：当前状态s的价值等于你立刻能得的奖励r，加上未来所有可能“下一状态s'”的价值V(s')的加权平均，然后还要乘上折扣系数γ表示稍微往后，奖励会变得不那么“香”了。
3. 状态价值函数与动作价值函数：有时候，你不光想知道“在哪”，还想知道“干啥”，动作价值函数Q(s,a)正好给你这个答案，告诉你在状态s下选择动作a能带来多少价值。

还有点很重要！价值函数有点像灵魂导师，帮你判断哪个决策路更靠谱。而贝尔曼方程就像它的“心灵鸡汤公式”，帮你不断迭代更新价值，不断逼近最优答案。

价值函数和奖励函数