不同算法的理论比较部分参考CSDN博客 - 专业IT技术发表平台,代码实现在python完成。用的算例是OpenAI官网gym提供的算例环境"CartPole-v1"游戏,代码实现部分在谷歌全家桶(Colab,tensorflow2,wandb)中完成
1.朴素DQN
原论文:
[DQN] Playing Atari with Deep Reinforcement Learning [1]
Off-policy,Discrete action space,model free,2015
算法:
python实现:
2.DDPG
原论文:
Model free, off policy, continuous action, 2015
算法:
python实现:
3.A3C
原论文:
算法:
python实现:
4.PPO
PPO, on policy, actor critic, Both discrete continuous action space, 2017
算法:
python实现:
以上就是本篇文章【深度强化学习算法(朴素DQN,DDQN,PPO,A3C等)比较与实现】的全部内容了,欢迎阅览 ! 文章地址:http://zleialh.xhstdz.com/quote/84924.html
栏目首页
相关文章
动态
同类文章
热门文章
网站地图
返回首页 物流园资讯移动站 http://zleialh.xhstdz.com/mobile/ , 查看更多