DeepforThink's Blog

Loading...

Welcome to my blog!

Social Links:

Featured

Diffusion Policy: 基于扩散模型的机器人策略学习

Updated: 30 Jun, 2025

解析 Diffusion Policy 论文

Recent Posts

强化学习学习记录（三）：TRPO、PPO、DDPG 与 SAC

7 Jun, 2026

整理 TRPO、PPO、DDPG 和 SAC 的核心公式、代码结构与 on-policy/off-policy 差异。
强化学习学习记录（二）：Dyna-Q、DQN 与 Actor-Critic

7 Jun, 2026

整理 Dyna-Q、DQN、Double DQN、Dueling DQN、策略梯度和 Actor-Critic 的学习笔记。
强化学习学习记录（一）：Bandit、MDP 与 TD

7 Jun, 2026

从多臂老虎机、UCB、汤普森采样到 MDP、动态规划和时序差分学习的强化学习基础笔记。
MIT 6.S184 学习笔记：Diffusion 与 Flow Matching

26 Apr, 2026

MIT 6.S184 生成模型课程学习笔记，按课程顺序梳理概率论基础、SDE、Flow Matching、Score Matching、Guidance 以及大规模图像生成模型。