首页 > 学院 > 开发设计 > 正文

David silver 的 reinforcement learning 课程笔记(二):马尔科夫决策过程

2019-11-06 09:09:56
字体:
来源:转载
供稿:网友

最近在学增强学习,边看课程视频编写的总结。希望和大家一起讨论学习…

Markov PRocess

状态 s是马尔科夫的但且仅当: P(S(t+1)|St)=P(St+1|S1,...,St) 一个马尔科夫过程可以用一个二元组(S,P)定义,其中S为有限的状态的集合,P为转移矩阵。对于一个马尔科夫过程一个样本(sample)为一个随机采样的序列(sequence)。

Markov Reward Process

没有价值的判断就无法生成有效的策略。因此,引入了reward这样一个概念。 一个markov reward process 是一个四元组(S,P,R,γ),其中R 为reward function,定义为 Rs=E(Rt+1|St=s)

γ 为折扣系数,此处的reward可以理解为离开当前状态得到的奖赏。 而我们所关心的是一个样本(sequence)在某个时刻所带来的回报,即累计奖赏(accumulated reward)return。 Gt=Rt+1+γRt+2+...=∑k=0∞γkRt+k+1

这里引入折扣的原因一是因为未来的不确定性且为了避免无穷大的return。而对于金融领域,立即的奖赏明显比延后的奖赏更加诱人。 State value function 评分函数 v(s) 表示从当前状态s 出发能够得到的奖赏的期望,描述的是状态v(s)的长期价值。 v(s)=E(Gt|St=s)

Bellman Equation

Gt 带入可得 v(s)=E(Rt+1+γv(St+1)|St=s)=Rs+γ∑s,∈SPss,v(s,) 即可得到bellman 方程 v=R+γPv 其中v,R为列向量,P为转移概率矩阵。其计算开销巨大O(n3)。 迭代求取的方法有:动态规划,时序差分学习,蒙特卡洛评价等方式

Markov Dicision Process

一个马尔科夫决策过程可有一个5元组(S,A,P,R,γ)描述 其中A为动作action的集合,P则被定义为 Pass,=P(St+1=s,|St=s,At=a) 即状态s 经动作a转移到状态s,的概率 R的定义类似于此前,Ras=E(Rt+1|St=s,At=a)

policy

一个策略π 指的是对于一个状态对应的可能执行的动作的分布 π(a|s)=P(At=a|St=s) 且其不随时间的改变而改变 有了策略后,可以根据value state function 定义 action value function。 qπ=Eπ(Gt|St=s,At=a)=Eπ(Rt+1+γqπ(St+1,At+1)|St=s,At=a) 同时可得以下方程 vπ(s)=∑a∈Aπ(a|s)qπ(s,a) qπ(s,a)=Ras+γ∑s,∈SPass,vπ(s,)

Optimal Value Function

v∗(s)=maxπvπ(s) q∗(s,a)=maxπqπ(s,a) 一个最优策略可以由q∗(s,a)得到: π∗(s,a)={10a=argmaxa∈Aq∗(s,a)otherwise

Extensions to MDPs

POMDP(partially observable markov decision)

我的理解是,他是一个加入了动作的隐马尔科夫模型


发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表