Loading...
RSS FeedWelcome to my blog!
Featured
-
Diffusion Policy: 基于扩散模型的机器人策略学习
Updated:解析 Diffusion Policy 论文
Recent Posts
-
强化学习学习记录(三):TRPO、PPO、DDPG 与 SAC
整理 TRPO、PPO、DDPG 和 SAC 的核心公式、代码结构与 on-policy/off-policy 差异。
-
强化学习学习记录(二):Dyna-Q、DQN 与 Actor-Critic
整理 Dyna-Q、DQN、Double DQN、Dueling DQN、策略梯度和 Actor-Critic 的学习笔记。
-
强化学习学习记录(一):Bandit、MDP 与 TD
从多臂老虎机、UCB、汤普森采样到 MDP、动态规划和时序差分学习的强化学习基础笔记。
-
MIT 6.S184 学习笔记:Diffusion 与 Flow Matching
MIT 6.S184 生成模型课程学习笔记,按课程顺序梳理概率论基础、SDE、Flow Matching、Score Matching、Guidance 以及大规模图像生成模型。