即可将网页分享至朋友圈
近日,英才实验学院2014级本科生刘豪在美国德克萨斯大学奥斯汀分校进行海外科研实习期间,攥写的论文“Action-dependent Control Variates for Policy Optimization via Stein Identity”成功入选机器学习领域顶级会议之一的International Conference on Learning Representations(ICLR,国际学习表征会议)。刘豪为该论文共同第一作者,电子科技大学为第一作者单位。这也是我校首次在ICLR会议发表论文。
策略梯度方法在解决强化学习问题方面取得了显著成功,但是在策略梯度估计方面仍存在较大的方差问题,导致训练样本效率较差。该论文提出了一种控制变量方法来有效地减少策略梯度方法的方差,通过引入更一般的依赖于动作的基线函数,扩展了以前只基于状态的控制变量和优势估计,并揭示了之前的一系列方法是该方法的特殊情况。实证研究表明,该方法显著提高了最先进的策略梯度方法的样本效率。
英才实验学院自2016年开始实施“本科生海外名校科研实习计划”,每年选拔优秀学子赴海外名校进行为期6个月以上的科研实习,两年来共派出14人赴美国达特茅斯学院、德克萨斯大学奥斯汀分校、加州大学河滨分校、新加坡南洋理工大学、香港科技大学等世界知名大学进行科研实习。两年来参加海外科研实习的学生共发表高水平论文14篇。
论文链接:
https://iclr.cc/Conferences/2018/Schedule?showEvent=106
编辑:林坤 / 审核:林坤 / 发布:一戈