给超人测一次智商
在经历了从 0 到 8 阶段极其痛快淋漓的高强度拔节攀顶后,你大概已经手握了一套能够自主训练、多模态全知并极速狂飙出来的属于你自己的私人大核模型体系了。
但在当今的 AI 商场里,几乎每个月都会极其极其夸张地突然冒出十几家初创公司乃至巨头厂商。每一个人开局都发着通稿在头版宣称:“我们的新一代旗舰极其恐怖地碾压碾碎超越了 GPT-4!” 面对这种乱得像菜市场一样的极其浮夸极其狂热的口嗨军备角力大乱斗。极其严谨极其冷静的算法科学家们究竟是拿一把什么样的尺子,去极其死硬极其不讲客套地丈量出这群算力巨兽们的真实肉搏战力排名的? 本章,我们踏入第 9 阶段的绝地领域,看看工业界到底是怎么“给超人出智商测试考卷”的。
1. 刷榜的内卷重灾区:传统静态考卷 (Benchmarks)
如果在几年前,你要测量一个模型是不是真聪明,很简单,拿出教育部最冷酷无情高考答题卡:死记硬背的客观选择题。
1.1 MMLU:名震天下的“AI 九年义务教育考场”
如果你关注任何一场大型模型发布会,PPT 上极其绝对地一定会挂着一个叫做 MMLU 的缩写并带有一个高达 80% 甚至 90% 的红字柱状图跑分。 这是一个极尽极其庞大涵盖了人类社会学、大学数学、天体物理、甚至极其生僻的冷门法庭辩论常识的整整 57 个大学科的超级四选一选择题巨量考卷题库。
早期 GPT-3 去做这份选择题的时候,几乎是瞎蒙出来的 30 多分;而随后 GPT-4 极其残暴地将这个极其极其枯燥极其巨量的应试答题卡狂砍到了极其恐怖的 86 分,直接把那一代所有的开卷开源竞争者全部打得在及格线下极其屈辱跪倒。
1.2 其他耳熟能详的“专项科目测试”
- HumanEval:只测极其残酷纯净极度硬核无聊的敲代码写函数编程智力题。
- GSM8K:一个专门出极度恶心极其需要绕几个弯子逻辑思考的小学加乘除甚至带有极其极其复杂套娃陷阱句式的数学鸡兔同笼重灾区魔鬼应用题库。