我们在前面三节给大模型接入了向量数据库,让它学会了查资料。 你用“请假打卡怎么扣工资”测试了一次,它拿着员工手册回答得井井有条,你很满意,于是就让它上线去为全公司服务了。
但是第二天灾难就发生了。当董事长问它一个财报里没写具体数字的“敏感营业额”时,它为了展现自己的博学,居然利用大模型自身的“幻觉”,凭空捏造了一个离谱的数字糊脸。
不要相信模型! 在把你的 RAG 系统推上生产线之前,你必须有一套冰冷的仪器来拦截这些灾难。这就是工业界必备的 Ragas(或 TruLens)自动化评测框架。 在《知识图谱》的版图里,这通常被称为“RAG 评估三元组”。
1. 拆解失败:RAG 跌倒的三个大坑
RAG(检索增强生成)是由两个完全独立的零件拼接的车厢:前哨查库特工(检索器) 和 后方嘴炮首长(生成器)。 如果系统答错了,锅在谁身上?这就是我们在监控排查时遇到的最烦人的扯皮。
我们需要引入一位铁面无私的裁判(也就是行业里常说的利用最强能力的大模型,比如 GPT-4,通过特定的 Prompt 公式来当裁判,即 LLM-as-a-Judge 模式),它专门拿着红笔,对这套系统里的每一步打乱拳。
[图片占位:(A clean, minimalist technical diagram on a solid white background. Use simple, crisp vector line art, monochrome or with very subtle minimal color accents. Flat design, no 3D effects, no clutter. Draw three interconnected pillars forming a triangle representing the evaluation triad.)]
2. 三元组防线一:上下文相关性 (Context Relevance)
👉 问责对象:前哨查库特工(向量检索器)
场景重现:
- 用户问:“今天食堂吃什么?”
- 我们花了大价钱用了刚才讲过的【混合搜素+重排】神仙组合,结果特工千辛万苦爬上岸,只甩给了首长一张“保洁阿姨招聘启事”、一张“食堂消防演习指南”。
裁判上场: GPT-4 裁判会把“前线捡回来的破资料”和“用户的原提问”放在天平上对比。如果是答非所问、全是噪声,这层评分就会挂 0。 一旦挂 0,首长(生成大模型)就算是再怎么妙笔生花,也只能无奈地回答出那句“抱歉,资料里没写”。
怎么救:不要去骂大模型。你该回去调整你切分文档(Chunking)的颗粒度,或是引入 HyDE(上一节讲的变种)。