Tag: deep reinforcement learning
All the articles with the tag "deep reinforcement learning".
-
强化学习学习记录(三):TRPO、PPO、DDPG 与 SAC
整理 TRPO、PPO、DDPG 和 SAC 的核心公式、代码结构与 on-policy/off-policy 差异。
-
强化学习学习记录(二):Dyna-Q、DQN 与 Actor-Critic
整理 Dyna-Q、DQN、Double DQN、Dueling DQN、策略梯度和 Actor-Critic 的学习笔记。
-
强化学习学习记录(一):Bandit、MDP 与 TD
从多臂老虎机、UCB、汤普森采样到 MDP、动态规划和时序差分学习的强化学习基础笔记。