本文是我学习吴恩达（Andrew Ng）《Machine Learning Specialization》（2022）后整理的笔记，记录 Unsupervised Learning, Recommenders and Reinforcement Learning 这一部分。

无监督学习

无标签数据与结构

无监督学习处理的是没有显式标签的数据。训练集中只有输入样本，通常没有对应的目标值 $y$ 。因此，模型的任务不再是拟合一个从 $x$ 到 $y$ 的预测函数，而是从样本自身的分布中找出结构。

这类结构主要有两种典型形式。若样本在空间中自然形成若干组，问题就会转向聚类；若大多数样本呈现相近模式，少数样本明显偏离主体分布，问题就会转向异常检测。前者关注样本之间的相似性，后者关注样本相对正常模式的偏离程度。

聚类

聚类的目标是把没有标签的样本划分成若干簇。K-means 是这一部分最基础的算法。它先设定簇的个数 $K$ ，并为每个簇维护一个中心点 $\mu_k$ 。算法在两步之间反复交替：

将每个样本分配给距离最近的中心点；
根据当前分配结果，重新计算每个簇的中心点。

若第 $i$ 个样本记为 $x^{(i)}$ ，第 $k$ 个聚类中心记为 $\mu_k$ ，第 $i$ 个样本所属簇编号记为 $c^{(i)}$ ，则 K-means 的目标函数为

J(c^{(1)},\dots,c^{(m)},\mu_1,\dots,\mu_K) = \frac{1}{m}\sum_{i=1}^{m}\left\|x^{(i)}-\mu_{c^{(i)}}\right\|^2

其中 $\mu_{c^{(i)}}$ 是样本 $x^{(i)}$ 所属簇的中心。二范数平方表示样本到该中心的距离平方，整体求和后再除以样本数 $m$ ，得到平均组内偏离程度。K-means 的分配步骤和更新步骤，都是围绕降低这个目标函数进行的。

初始化会影响 K-means 的结果。不同初始中心点可能使算法收敛到不同结果，因此常见做法是多次随机初始化，再保留目标函数值较小的一次。聚类数 $K$ 的选择也没有唯一公式，通常结合代价函数曲线、数据结构和任务解释来决定。若 $K$ 太小，多个簇会被合并；若 $K$ 太大，模型会把原本连续的结构切得过细。

异常检测

异常检测的目标是识别偏离正常模式的样本。它不要求把所有样本划分成多个簇，而是先刻画正常样本的分布，再根据概率密度判断新样本是否异常。

单个特征常用高斯分布建模。若特征 $x$ 的均值为 $\mu$ ，方差为 $\sigma^2$ ，则概率密度函数为

p(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\!\left( -\frac{(x-\mu)^2}{2\sigma^2} \right)

这里 $\mu$ 决定分布中心， $\sigma$ 决定分布宽度。若 $x$ 离均值较远，指数项会下降，对应概率密度较小。异常检测正是利用这一点，将低概率样本视为可疑点。

若一个样本包含 $n$ 个特征，并先采用特征近似独立的建模方式，则整体概率写成

p(x)=\prod_{j=1}^{n}p(x_j;\mu_j,\sigma_j^2)

其中 $x_j$ 是第 $j$ 个特征， $\mu_j$ 和 $\sigma_j^2$ 分别由训练数据估计得到。判定规则为

p(x)<\varepsilon

当样本概率小于阈值 $\varepsilon$ 时，预测为 anomaly。阈值通常通过交叉验证集调节，而不是直接凭直觉指定。

异常检测和监督学习分类的分界，主要取决于异常样本的数量与类型。如果异常样本很少，且未来可能出现未见过的新异常，异常检测更合适；如果正负样本都比较充足，且异常类型相对固定，监督学习分类更自然。特征选择同样关键。一个特征若无法区分正常和异常，放进概率模型后也不会带来有效判断；好的特征应能让异常样本在分布中落到低概率区域。

基本对象包括：

state $s$ ：当前状态
action $a$ ：当前状态下采取的动作
reward $R_t$ ：时刻 $t$ 收到的即时反馈
policy $\pi$ ：从状态到动作的决策规则

即时奖励只描述某一步反馈，强化学习优化的是从当前时刻开始的累计回报。若从时刻 $t$ 开始，return 定义为

G_t=R_t+\gamma R_{t+1}+\gamma^2R_{t+2}+\cdots

其中 $\gamma\in[0,1)$ 是折扣因子。 $R_t$ 是当前奖励， $\gamma R_{t+1}$ 是下一步奖励折扣后的贡献， $\gamma^2R_{t+2}$ 是再下一步奖励的贡献。 $\gamma$ 越接近 1，未来奖励的影响越大； $\gamma$ 越小，目标越偏向近期反馈。

状态动作值函数

在状态 $s$ 下采取动作 $a$ 后，后续如果按策略 $\pi$ 行动，可以得到一个期望 return。这个量称为状态动作值函数，记为

Q^\pi(s,a)=\mathbb{E}[G_t\mid S_t=s,A_t=a]

其中 $S_t=s$ 表示当前状态为 $s$ ， $A_t=a$ 表示当前动作是 $a$ ， $G_t$ 是从当前时刻开始的 return。上标 $\pi$ 说明后续动作由策略 $\pi$ 决定。

$Q^\pi(s,a)$ 不是单步 reward。它评估的是当前动作和后续策略共同带来的长期回报。若某个动作的 $Q$ 值更高，表示在当前状态下先采取该动作，并在之后遵循策略 $\pi$ ，能够得到更高的期望 return。

Bellman 方程

Bellman 方程把长期 return 写成递归形式。对状态动作值函数，可以写成

Q^\pi(s,a) = R(s,a) + \gamma\mathbb{E}_{s',a'} \left[ Q^\pi(s',a') \right]

其中 $R(s,a)$ 是在状态 $s$ 下采取动作 $a$ 得到的即时奖励， $s'$ 是下一状态， $a'$ 是下一状态下按照策略 $\pi$ 选择的动作。右侧第一项是当前一步反馈，第二项是折扣后的未来价值期望。

若环境是确定性的，下一状态和下一动作可以直接确定；若环境存在随机性，就需要对可能的 $s'$ 和 $a'$ 取期望。这个方程将完整的长期回报拆成当前奖励和下一状态价值，因此是价值函数学习的基础。

最优状态动作值函数记为 $Q^*(s,a)$ 。对应的 Bellman 最优方程为

Q^*(s,a) = R(s,a) + \gamma\mathbb{E}_{s'} \left[ \max_{a'}Q^*(s',a') \right]

这里的 $\max_{a'}$ 表示在下一状态 $s'$ 中选择未来价值最大的动作。最优策略可以由最优 Q 函数得到：

\pi^*(s)=\arg\max_a Q^*(s,a)

这个式子表示，在状态 $s$ 下选择使 $Q^*(s,a)$ 最大的动作。

函数逼近

当状态和动作数量很少时，可以用表格存储每个状态动作对的 Q 值。连续状态空间中，这种表格方法不再可行。例如状态可能包含位置、速度、角度、角速度等连续量，状态组合几乎不可穷举。此时需要用函数逼近表示 Q 函数。

若用神经网络近似状态动作值函数，可以写成

Q(s,a;w)

其中 $w$ 是网络参数。输入为状态和动作，输出为对应 Q 值估计。若动作集合离散且数量不大，也可以让网络输入状态 $s$ ，一次输出所有动作对应的 Q 值：

Q(s,\cdot;w)= \begin{bmatrix} Q(s,a_1;w)\\ Q(s,a_2;w)\\ \vdots\\ Q(s,a_k;w) \end{bmatrix}

其中 $a_1,\dots,a_k$ 是可选动作集合。这样可以一次前向传播得到同一状态下所有动作的价值估计。

根据 Bellman 最优方程，一步训练目标可写为

y= R+\gamma\max_{a'}Q(s',a';w^-)

其中 $R$ 是当前转移得到的奖励， $s'$ 是下一状态， $w^-$ 表示目标网络参数。训练损失写成

L(w)=\frac{1}{2}\left(y-Q(s,a;w)\right)^2

这里 $Q(s,a;w)$ 是当前网络对当前状态动作对的估计， $y$ 是由奖励和下一状态最大 Q 值构成的目标。训练的任务是让当前 Q 估计接近这个 Bellman 目标。

探索与稳定训练

有了 Q 值估计后，最直接的动作选择方式是选择当前 Q 值最大的动作。但强化学习中的数据由动作产生，如果一直只选择当前估计最好的动作，模型可能无法发现更优路径。探索与利用需要同时保留。

$\epsilon$ -贪婪策略给出了一种简单规则：

以概率 $1-\epsilon$ 选择当前 Q 值最大的动作
以概率 $\epsilon$ 随机选择一个动作

其中 $\epsilon$ 控制探索比例。 $\epsilon$ 较大时，行为更随机； $\epsilon$ 较小时，行为更依赖当前价值估计。这个机制用于在已有知识和新动作尝试之间保持平衡。

训练中还会使用 mini-batch 和 soft update。mini-batch 从经验样本中取一小批转移一起更新，减少单条样本带来的波动。soft update 用于缓慢更新目标网络参数：

w^-\leftarrow\tau w+(1-\tau)w^-

其中 $w$ 是当前网络参数， $w^-$ 是目标网络参数， $\tau$ 是较小的更新系数。这个式子表示目标网络只向当前网络移动一小步，而不是直接复制当前网络。目标网络变化较平滑，Bellman target 也会更稳定。

状态表示

状态表示决定了价值函数能够利用哪些信息。状态应包含影响后续决策和回报的关键变量。若状态缺少必要信息，即使 Bellman 方程和神经网络结构都写得正确，模型也难以学习稳定策略。

这一点和前面机器学习中的特征选择相通。区别在于，强化学习中的状态会影响后续动作、环境转移和长期 return，因此状态表示的质量会直接影响整条决策链。

Thanks for reading!