这里,大家可以参考这篇文章
https://zhuanlan.zhihu.com/p/21547911
我只摘要主要部分如下:
DQN的一些开放性问题:
目标Q值的计算准确吗?全部通过max Q来计算有没有问题?
随机采样的方法好吗?按道理不同样本的重要性是不一样的
- Q值代表状态,动作的价值,那么单独动作价值的评估会不会更准确?
- DQN中使用 的方法来探索状态空间,有没有更好的做法?
- 使用卷积神经网络的结构是否有局限?加入RNN呢?
- DQN无法解决一些高难度的Atari游戏比如Montezuma's Revenge,如何处理这些游戏?
- DQN训练时间太慢了,跑一个游戏要好几天,有没有办法更快?
- DQN训练是单独的,也就是一个游戏弄一个网络进行训练,有没有办法弄一个网络同时掌握多个游戏,或者训练某一个游戏后将知识迁移到新的游戏?
- DQN能否用在连续动作输出问题?
那么现在的事实发现DeepMind确实在思考解决上面的几个问题,并且基本上每一个问题都有一定的解决方法。下面罗列一下各个问题的解决文章:
- 改进目标Q值计算: Deep Reinforcement Learning with Double Q-learning
- 改进随机采样: Prioritized Experience Replay
- 改进网络结构,评估单独动作价值: Dueling Network Architectures for Deep Reinforcement Learning ( 本文为ICML最佳论文之一)
- 改进探索状态空间方式:(1) Deep Exploration via Bootstrapped DQN (2) Incentivizing Exploration In Reinforcement Learning With Deep Predictive Models
- 改变网络结构,增加RNN: Deep Recurrent Q-Learning for Partially Observable MDPs (非DeepMind出品,效果很一般,谈不上改进,本文也不考虑讲解)
- 实现DQN训练的迁移学习:(1) Policy Distillation (2) Actor-Mimic: Deep Multitask and Transfer Reinforcement Learning
- 解决高难度游戏Montezuma‘s Revenge: Unifying Count-Based Exploration and Intrinsic Motivation
- 加快DQN训练速度: Asynchronous Methods for Deep Reinforcement Learning (这篇文章还引出了可以替代DQN的A3C算法,效果4倍Nature DQN)
- 改变DQN使之能够应用在连续控制上面: Continuous Deep Q-Learning with Model-based Acceleration