从理论走向工程
在上一节(1.1 神经网络骨架)中,我们见识了神经网络的底层引擎:神经元负责感知与扭曲,反向传播(链式法则)负责将损失分发定罪。
但这只是图纸上的理想状态。 一旦你真的把层数堆到几十重、塞进上千万条数据,这头名为“梯度下降”的猛兽就会彻底失控:
- 步子迈大了,它在山谷里疯狂震荡(不收敛);
- 步子迈小了,训练慢得让人;
- 层数太深,后方的“指责信号”根本传不到前线(梯度消失);
- 它还喜欢投机取巧,死记硬背训练集的答案(过拟合)。
本节将介绍深度学习发展史上,那几项挽狂澜于既倒的纯工程黑科技。
1. 教练的进化:优化器 (Optimizer)
既然“反向传播”算出了方向(梯度),也知道了错在哪(Loss),怎么改才能让 Loss 稳健缩小? 这就需要优化器控制下山的步伐,其中最具决定性的参数就是学习率(Learning Rate)。
1.1 开山鼻祖:SGD(随机梯度下降)
最朴素的逻辑,看见坡就下,朝最陡的方向走固定的一定步子。
- 致命弱点:如果遇到一个狭长的山谷,由于坡度陡但其实谷底在沿长轴方向,SGD 会在山谷两壁上疯狂反复横跳(震荡),迟迟不敢走向真正的谷底。
1.2 加上惯性:Momentum
物理学给了工程师灵感:给下山的小球加上动量(惯性)。
- 原理:如果连续几次都在朝东边走,那下次跨步时就把往东的步伐加大;如果一会儿往南一会儿往北,南北的幅度就会被惯性抵消。
- 效果:它极大地缓解了 SGD 的无脑震荡,像一辆安装了悬挂系统的越野车。
1.3 现代标配与 LLM 御用:Adam 与 AdamW

既然方向可以加惯性,那不同维度的学习步长能不能因人而异? 如果在某一个 参数维度上地形非常平坦,那就步子迈大点;如果某一个维度崎岖,就自动把学习率降低。
这就是 Adam (Adaptive Moment Estimation):目前绝大部分深度学习模型的默认优化器。
- AdamW:由于 Adam 在最后对抗“过拟合”的数值衰减上存在一个隐秘的代数 bug。研究人员修复了这个 bug 提出了 AdamW,它同时拥有自适应步长极速收敛的优势,又能让模型泛化能力更强。目前所有的大语言模型(LLM,包括 LLaMA、GPT等)一开场,优化器必填 AdamW。
1.4 P2 前沿:Lion 优化器
寻找最优解的算力成本越来越高,Google 近年提出了极简的 Lion。 如果不算精确梯度的具体数值,**只看梯度的“符号(正负号)”**呢?只要知道向左还是向右,闭着眼睛猛冲就行了。不仅霸道,更是被证明比 Adam 还能节省显存。
2. 驯服过拟合:正则化与 Dropout
AI 也喜欢“死记硬背历年模拟卷(训练集)”,到了“真正的考场(测试集)”就翻车,这叫过拟合。 参数越多,模型背答案的能力越强。