把大象装进冰箱
我们在前两章跨越了极其艰难的训练(SFT)和微调(LoRA)大山。但当你兴奋地把一个成品模型下载到本地,准备点火起飞时,现实的物理引力会毫不留情地给你一记最沉重的耳光:显存溢出 (OOM / Out of Memory)。
这个令全球无数算法工程师绝望的词汇,揭晓了大模型时代最大的痛点。你的模型不管多聪明,一旦装不进显卡那寸土寸金的几 GB 内存条里,它就是一堆无用的废渣。 本章我们将从算账开始,为你揭开拯救全球草根算力的核心续命符:模型量化(Quantization)。
1. 显存危机:一笔血淋淋的算账
为什么大模型这么大? 因为它们是用浮点数构筑的汪洋大海。
在这个数字宇宙里,如果不加干涉,模型出厂默认的精度通常是 FP16 (16位半精度浮点数)。 这意味着,构成大模型大脑的每一个神经网络参数,都需要占用你整整 2 个字节 (Bytes) 的物理空间。
让我们用一块标准的家用顶配游戏显卡 RTX 4090(24GB 显存)作为度量尺来算一笔绝望的账:
- 小模型 (7B 级别,比如 LLaMA-3-8B)