深度强化学习算法(朴素DQN,DDQN,PPO,A3C等)比较与实现

深度强化学习算法(朴素DQN,DDQN,PPO,A3C等)比较与实现

2024-12-19 17:09

不同算法的理论比较部分参考CSDN博客 - 专业IT技术发表平台，代码实现在python完成。用的算例是OpenAI官网gym提供的算例环境"CartPole-v1"游戏,代码实现部分在谷歌全家桶(Colab,tensorflow2,wandb)中完成

1.朴素DQN

原论文：

[DQN] Playing Atari with Deep Reinforcement Learning [1]

Off-policy，Discrete action space，model free，2015

算法：

python实现：

2.DDPG

原论文：

Model free， off policy， continuous action， 2015

算法：

python实现：

3.A3C

原论文：

算法：

python实现：

4.PPO

PPO， on policy, actor critic, Both discrete continuous action space, 2017

算法：

python实现：