承上启下
在上一章,我们学会了如何通过 Fine-tuning 定制自己的“阿凡达”。 但问题来了:你训练出来的 70B 大模型,可能有 140GB 那么大。你的 显卡只有 24GB,怎么办? 这一章,我们不仅要让模型跑得起来(省显存),还要让它跑得快(低延迟)。
1. 显存危机:为什么模型这么大?
首先,我们要会算账。 一个模型占多少显存,取决于参数量和精度。
- FP16 (半精度浮点数):这是训练时的标准精度。每个参数占 2 Bytes。
- 7B 模型 14GB 显存。
- 70B 模型 140GB 显存 (你需要 2 张 A100)。
对于普通开发者来说,这太贵了。我们需要把大象(模型)压缩一下。