强化学习是强实践学科，必须遵循「概念→代码→调试」闭环。

前置知识

类型	内容
必备	线性代数、概率论、微积分、Python、PyTorch
加分	最优控制、动态规划、运筹学

四阶段入门路径

学习内容：MDP、贝尔曼方程、DP/MC/TD 方法、Model-based/Model-free 分类。

实操：手动计算 MDP 状态价值，用 Gymnasium 跑通 CartPole、FrozenLake。

资源：李宏毅 RL 课程、OpenAI Spinning Up、蘑菇书 EasyRL。

算法顺序：Q-Learning → SARSA → DQN → REINFORCE → A2C。

实操：手写极简代码（DQN < 200 行），跑通环境验证收敛，做调参和消融实验。

资源：OpenAI Spinning Up 代码、Hugging Face Deep RL Course。

算法：DDPG、TD3、SAC（连续动作）、PPO（通用首选）。

实操：手写 PPO/SAC 核心代码，掌握 Stable Baselines3 框架，完成迷你项目。

环境：MuJoCo、Atari、MPE。

工业方向：实际问题转化为 MDP，重点掌握奖励函数设计。

科研方向：复现顶会论文，针对性创新。