即可将网页分享至朋友圈
11月24日,香港城市大学刘光悟教授做客供应链与服务管理研究所第156期前沿讲座,线上为研究所师生带来了主题为“Solving Markov Decision Processes via Largest-Size Average Estimator”的精彩学术报告。
刘光悟教授以AlphaGo击败顶级围棋手为例子引入其研究,首先向大家介绍了与研究相关的概念,包括马尔可夫决策过程(MDPs)的Setup、Policies、Optimality,紧接着引出研究的核心方法即基于仿真的方法——AMS算法,使用该算法来求解马尔可夫决策过程,同时介绍了该算法相关的Tree Sampling。在报告的第二部分刘光悟教授介绍了基于仿真方法的两个关键组成部分:蒙特卡洛采样(Monte Carlo)和值函数(value—function)。蒙特卡洛采样采用的是UCB采样方法,该方法具有特殊的性质,即会将大部分样本分给最优的动作,其他非最优动作也能分到较少的采样次数。在确定值函数的时候该研究采用的是LSA估计量,该估计量的原理即是将采样次数最多的动作作为最优动作,将其对应的值记为状态最优值函数,同时刘光悟教授也解释了LSA估计量的合理性。
在报告的第三部分,刘光悟老师将LSA估计量与WA估计量进行比较,比较结果显示LSA估计量的偏差比WA估计量的偏差小很多。利用LSA估计量偏差比较小的性质,将其放到蒙特卡洛树搜索或者马尔可夫决策过程(MDPs)里能够得到更好的解同时收敛更快,在有限样本的情况下表现更好,这也是该研究的目的。紧接着,刘光悟教授将问题从单阶段拓展到了多阶段,分析了多阶段时误差叠加的过程,同时分析了算法的复杂度。在报告的第四部分刘光悟教授介绍了该研究的数值试验,以闯入者监控(Intruder Monitoring)和多阶段库存管理问题为例,分析了其相应的收敛速度和偏差、标准差。报告最后,刘光悟教授对此次报告进行了总结,并说明了并不是所有的马尔可夫决策过程都适用于基于仿真的方法,该方法只有在状态空间较大且时间跨度不长的情况下才适用。
刘光悟教授的研究思想新颖,内容丰富,演讲详细且严谨,给全院师生带来研究启发的同时还激起了思维的碰撞。随后,老师和同学们就刘光悟教授的研究理论与LSA算法相关问题与刘光悟教授进行了深入交流。本次讲座由艾兴政教授主持,经济管理学院陈旭教授、夏远强教授、潘景铭教授、慕银平教授、殷允强教授、代文强教授、胡本勇教授、晏鹏宇教授、梁德翠研究员、路应金副教授、田江副教授、孙朝苑副教授、冯毅副教授、吴庆副教授、雷东副教授、陆炜副教授、王娇副教授、晏伟副教授、陈文琳副教授、罗政副教授、黄冯凤副教授、钟颖副教授及校内外181名师生参加此次讲座。
编辑:赵海玲 / 审核:林坤 / 发布:林坤