首页 > 学院 > 开发设计 > 正文

蒙特卡洛树搜索(MCTS)进行模拟的实现流程

2019-11-06 08:39:48
字体:
来源:转载
供稿:网友
       首先,要明确的一点是,算法并不用了解游戏领域知识。       在一个游戏模拟过程中,相关决策的组合可能是一个很大的数,我们如何控制这个模拟行为是满足一定时间上的限制的。我们允许一个参数来控制时间。每次模拟一条路径,直到timeout模拟结束。       下面先介绍MCTS。       4个阶段,选择,扩展,模拟,回溯更新                %20       %20选择胜率大的分支进行搜索(7/10->5/6->3/3),到了3/3叶子节点进行展开选择一个action,       %20然后进行模拟,评估这个action的结果。然后把结果向上回溯到根节点。       %20研究的论文将MCTS和UCB1结合得到信任度上限树(Upper%20Confidence%20bound%20applied%20to%20Trees(UCT))算法。       %20       %20然后介绍UCB1        本人        应用到POMDP模型后,本人的设计流程如下:


发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表