张芷铭的个人博客

三种学习范式对比

类型数据特点目标常见算法
监督学习有标签数据学习映射函数预测输出线性回归、SVM、决策树
无监督学习无标签数据发现数据潜在结构K-means、PCA
强化学习环境交互最大化累积奖励Q-Learning、DQN

监督学习

利用标记数据训练模型,学习输入到输出的映射函数。

无监督学习

从无标记数据中发现潜在结构,用于聚类或降维。

强化学习

通过与环境互动学习决策策略,通过奖励惩罚机制优化。

Comments