这里,大家可以参考这篇文章

https://zhuanlan.zhihu.com/p/21547911

我只摘要主要部分如下:

DQN的一些开放性问题:

  • 目标Q值的计算准确吗?全部通过max Q来计算有没有问题?

  • 随机采样的方法好吗?按道理不同样本的重要性是不一样的

  • Q值代表状态,动作的价值,那么单独动作价值的评估会不会更准确?
  • DQN中使用 的方法来探索状态空间,有没有更好的做法?
  • 使用卷积神经网络的结构是否有局限?加入RNN呢?
  • DQN无法解决一些高难度的Atari游戏比如Montezuma's Revenge,如何处理这些游戏?
  • DQN训练时间太慢了,跑一个游戏要好几天,有没有办法更快?
  • DQN训练是单独的,也就是一个游戏弄一个网络进行训练,有没有办法弄一个网络同时掌握多个游戏,或者训练某一个游戏后将知识迁移到新的游戏?
  • DQN能否用在连续动作输出问题?

那么现在的事实发现DeepMind确实在思考解决上面的几个问题,并且基本上每一个问题都有一定的解决方法。下面罗列一下各个问题的解决文章:

results matching ""

    No results matching ""