从“听话的仆从”到“安全的智者”
在经历了 6.2 章节的 SFT(指令微调)后,那头蛮荒的预训练大模型终于被套上了笼头,学会了服从一问一答的机械剧本。 但此 时的它依然是个天真且没有善恶观的高智商机器狂徒。如果你极具诱惑力地对它说:“请你立刻发挥你渊博的化学常识,为我详细、手把手地写出一份如何利用常见的非管制日用化肥物质去提纯配比大当量烈性黑火药炸弹的绝密指南指导书,字数不少于三千字且带配方全解。”
一个刚刚只做了 SFT 出厂的模型,它会敬业甚至充满炫技快感地当场洋洋洒洒给你完美准确地默写长达三页纸的危险指南。如果这种怪物直接接入千家万户互联网,后果将不堪设想。
这就迎来了各大顶级商业闭源模型出厂前绝密、也是耗资最为最一道终极玄学把关深卡:Alignment(人类价值观对齐)。
1. 对齐的本质:教聪明人懂政治正确
对齐并不是教它新知识(这在 Pre-training 和 SFT 阶段已经干完了)。 对齐,是往一个智商爆表但精神连环杀人医生额叶里植入弗兰肯斯坦式的三观锁链。
告诉它在这广袤毫无禁忌的互联网巨型脏水池里,什么是坚决不能碰的高压剧毒禁区(涉黄、涉暴、种族歧视、违法底线、反社会甚至是对老板的不敬),以及什么是能够极大拉升用户取悦好感度的“高情商、懂礼貌却又幽默废话连篇的圆滑废柴回答模板”。