Cross-Entropy Method (CEM, 交叉熵方法) 与强化学习
前言 之前阅读 Deep Reinforcement Learning: Pong from Pixels 的时候 , 作者在文中最后提到“ One should always try a BB gun before reaching for the Bazooka. In the case of Reinforcement Learning for example, one strong baseline that should always be tried first is the cross-entropy method (CEM) , a simple stochastic hill-climbing “guess and check” approach inspired loosely by evolution. ” (如果你做强化学习,就应该先用最原始的方法即CEM先测试一下,当然试验结果也可以充当benchmark进行对比。) 由于(居然)没找到相关的中文资料,我就来简要介绍一下吧。 简介 交叉熵方法是一种蒙特卡洛方法,主要用来优化和重要性采样。和进化算法类似,在空间中按照某种规则撒点,获得每个点的误差,再根据这些误差信息决定下一轮撒点的规则。交叉熵方法之所以叫这个名字,是因为该方法(从理论上来说)目标是最小化随机撒点得到的数据分布与数据实际分布的交叉熵(等价于最小化 KL 距离),尽量使采样分布(撒的点)与实际情况同分布。 该方法适当选取撒点规则就可以适应多目标优化等情况,在组合优化中也有许多应用。本文主要讨论 CEM 在强化学习的策略优化中的应用。 CEM 流程 简介说得花里胡哨,可是实际应用起来基本没有交叉熵什么事,实际应用通常是以下步骤: 首先,建模,将问题的解参数化。比如强化学习中,假设状态 S 为一个 n 维向量,动作总共有 2 种,最简单的想法就是建立一个 n 维参数向量 W ,求 S T $\times$ W 得到一个标量 Q ,当 Q > 0 则采取第一种动作,否则采取第二种。强化学习问题转化为优化问题。(接下来其实可以使用任何优化算法求解最优的 W ,只不过交叉熵方法可以很快很稳定地收敛。) 假设参数 W 属于高斯分布,随机设置一个 n 维向量 $\mu...