Archives
All the articles I've archived.
-
MIT 6.S184 学习笔记:Diffusion 与 Flow Matching
MIT 6.S184 生成模型课程学习笔记,按课程顺序梳理概率论基础、SDE、Flow Matching、Score Matching、Guidance 以及大规模图像生成模型。
-
从 Transformer 到 Decision Transformer:VLA 前置知识一文梳理
面向 VLA 入门的一篇前置综述:序列建模、视觉编码、图文对齐、视觉接入 LLM、动作条件生成,以及几个最容易混淆的基础概念。
-
MIT 6.S978 Deep Generative Models(总览):理解现代生成模型的一张地图
从分布表示、训练目标、采样过程与模型演化四条主线,拉通理解 MIT 6.S978 Deep Generative Models 课程中的主要生成模型。
-
MIT 6.S978 Deep Generative Models(六):从 Diffusion Distillation 到 Consistency Models
从慢采样问题、概率流 ODE、自一致约束到蒸馏与直接训练,理解 Consistency Models 的建模逻辑与代码实现。
-
MIT 6.S978 Deep Generative Models(五):从 Diffusion 到 Flow Matching
从概率路径、条件流与速度场回归出发,理解 Flow Matching 的建模逻辑与代码实现。
-
MIT 6.S978 Deep Generative Models(四):从 Diffusion 到 Score Matching
从前向加噪、逆过程建模到 score matching,理解扩散模型的训练目标与代码实现。
-
MIT 6.S978 Deep Generative Models(三):从 GAN 到 WGAN
从分布差异、对抗目标与训练稳定性出发,理解 GAN、WGAN 与对抗损失的作用。
-
MIT 6.S978 Deep Generative Models(二):从自回归建模到 PixelCNN
从链式法则、自回归训练与推断出发,理解 PixelCNN 的建模逻辑与代码实现。
-
MIT 6.S978 Deep Generative Models(一):从 AutoEncoder 到 Variational AutoEncoder
从第一性原理理解 VAE:潜变量、ELBO、重参数化与代码实现。
-
强化学习中的数学原理(五):策略梯度与 Actor-Critic
Mathematical Principles in Reinforcement Learning summary part 5 - Policy Gradient Methods and Actor-Critic Architecture
-
强化学习中的数学原理(四):时序差分学习与价值函数近似
Mathematical Principles in Reinforcement Learning summary part 4 - Temporal-Difference Learning (TD, SARSA, Q-Learning) and Value Function Approximation
-
强化学习中的数学原理(三):蒙特卡洛方法与随机近似
Mathematical Principles in Reinforcement Learning summary part 3 - Monte Carlo methods and Stochastic Approximation (SGD)
-
强化学习中的数学原理(二):贝尔曼最优方程与迭代算法
Mathematical Principles in Reinforcement Learning summary part 2 - Bellman Optimality Equation and Value/Policy Iteration
-
cs285
cs285 summary
-
强化学习中的数学原理(一):马尔可夫决策过程与贝尔曼方程
Mathematical Principles in Reinforcement Learning summary
-
拓荒
转变博客主题之后的第一篇博客,对转瞬即逝的大学前两年的反思与总结
-
Diffusion Policy: 基于扩散模型的机器人策略学习
Updated:解析 Diffusion Policy 论文