这里，大家可以参考这篇文章

我只摘要主要部分如下：

DQN的一些开放性问题：

那么现在的事实发现DeepMind确实在思考解决上面的几个问题，并且基本上每一个问题都有一定的解决方法。下面罗列一下各个问题的解决文章：

改进目标Q值计算： Deep Reinforcement Learning with Double Q-learning
改进随机采样： Prioritized Experience Replay
改进网络结构，评估单独动作价值： Dueling Network Architectures for Deep Reinforcement Learning ( 本文为ICML最佳论文之一）
改进探索状态空间方式：（1） Deep Exploration via Bootstrapped DQN （2） Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models
改变网络结构，增加RNN： Deep Recurrent Q-Learning for Partially Observable MDPs （非DeepMind出品，效果很一般，谈不上改进，本文也不考虑讲解）
实现DQN训练的迁移学习：（1） Policy Distillation （2） Actor-Mimic: Deep Multitask and Transfer Reinforcement Learning
解决高难度游戏Montezuma‘s Revenge： Unifying Count-Based Exploration and Intrinsic Motivation
加快DQN训练速度： Asynchronous Methods for Deep Reinforcement Learning （这篇文章还引出了可以替代DQN的A3C算法，效果4倍Nature DQN）
改变DQN使之能够应用在连续控制上面： Continuous Deep Q-Learning with Model-based Acceleration

DQN后续版本

results matching ""