面向生产环境的期末大考
在前几个阶段中,我们学会了如何组装、微调并部署一个大模型。但当一个模型要真正向海量互联网用户提供商业服务时,必然会遇到两个极其现实的问题:
- 你怎么证明你的模型比竞品聪明?(怎么打分?)
- 你怎么保证它不会被坏人骗出错乱的危险回答?(怎么防黑?)
本章,我们将视线从代码开发层移出,聚焦于大模型的生命管理周期中最关键的一环:模型评估 (Evaluation) 与 安全监控 (Security & Guardrails)。
1. 大模型都是怎么被“打分”的?
在传统的机器学习时代,评价一个模型很简单:看看它把猫认成狗的错误率是多少。但对于生成式 AI 这种回答千变万化、不仅能写诗还能编程的全才,如何给它打出一个公允的分数?
业界演化出了两套平行的机制:公开考卷与盲测角斗场。