把大象装进冰箱
经过前面章节的微调和对齐后,我们得到了一座包含上百亿参数的模型权重金字塔。 但在部署环节,一个严峻的工程问题摆在面前:显存墙(Memory Wall)。 以一个 70B(700亿参数)的开源大模型为例,如果使用标准的 16 位浮点数(FP16/BF16)保存参数,仅静态加载模型本身就需要消耗约 140GB 的物理显存空间。这远远超出了普通消费级显卡(如 RTX 4090 的 24GB)的承载极限。
如果想在有限资源的单卡机器甚至个人笔记本上跑起这个庞然大物,行业给出的标准解法就是**模型量化(Quantization)**技术。本章将带您了解这一核心的算力降维手段。
1. 原理解析:数据类型的降级与舍入
所谓的量化,本质上是对表示数字精度的数据格式进行有损压缩的工程。我们通过用更少比特位的数据类型(如 8 位整数,或 4 位整数)来替代原本占用较高存储空间的 16 位浮点数。