4.4 RAG 专职评估：科学拦截幻觉与答非所问

2026年3月8日

阅读需 6 分钟

wqz

ai学习

/rag

/ragas

RAG 也会“不懂装懂”

我们在前面三节给大模型接入了向量数据库，让它学会了查资料。你用“请假打卡怎么扣工资”测试了一次，它拿着员工手册回答得井井有条，你很满意，于是就让它上线去为全公司服务了。

但是第二天灾难就发生了。当董事长问它一个财报里没写具体数字的“敏感营业额”时，它为了展现自己的博学，居然利用大模型自身的“幻觉”，凭空捏造了一个离谱的数字糊脸。

不要相信模型！ 在把你的 RAG 系统推上生产线之前，你必须有一套冰冷的仪器来拦截这些灾难。这就是工业界必备的 Ragas（或 TruLens）自动化评测框架。在《知识图谱》的版图里，这通常被称为“RAG 评估三元组”。

1. 拆解失败：RAG 跌倒的三个大坑

RAG（检索增强生成）是由两个完全独立的零件拼接的车厢：前哨查库特工（检索器） 和 后方嘴炮首长（生成器）。如果系统答错了，锅在谁身上？这就是我们在监控排查时遇到的最烦人的扯皮。

我们需要引入一位铁面无私的裁判（也就是行业里常说的利用最强能力的大模型，比如 GPT-4，通过特定的 Prompt 公式来当裁判，即 LLM-as-a-Judge 模式），它专门拿着红笔，对这套系统里的每一步打乱拳。

[图片占位:(A clean, minimalist technical diagram on a solid white background. Use simple, crisp vector line art, monochrome or with very subtle minimal color accents. Flat design, no 3D effects, no clutter. Draw three interconnected pillars forming a triangle representing the evaluation triad.)]

2. 三元组防线一：上下文相关性 (Context Relevance)

👉 问责对象：前哨查库特工（向量检索器）

场景重现：

用户问：“今天食堂吃什么？”
我们花了大价钱用了刚才讲过的【混合搜素+重排】神仙组合，结果特工千辛万苦爬上岸，只甩给了首长一张“保洁阿姨招聘启事”、一张“食堂消防演习指南”。

裁判上场： GPT-4 裁判会把“前线捡回来的破资料”和“用户的原提问”放在天平上对比。如果是答非所问、全是噪声，这层评分就会挂 0。一旦挂 0，首长（生成大模型）就算是再怎么妙笔生花，也只能无奈地回答出那句“抱歉，资料里没写”。

怎么救：不要去骂大模型。你该回去调整你切分文档（Chunking）的颗粒度，或是引入 HyDE（上一节讲的变种）。

3. 三元组防线二：答案忠实度 (Faithfulness)

👉 问责对象：后方嘴炮首长（生成器大模型）

这是引发严重事故的第一元凶：幻觉！

场景重现：

用户问：“退款周期是多久？”
前线特工非常神勇，捞上来的绝密资料上白纸黑字写着：“7-10 个工作日。”
结果后方首长（基座大模型）看了这几个字，觉得气势不够，大嘴一咧自作主张回复：“您好，退款通常在 7-10 个工作日，不过凭借我博学的网络知识，一般 2 天内钱就能到您账户，请放心！”

裁判上场： GPT-4 裁判拿着放大镜，对着首长吐出来的这段话逐句核对：你说的这一切，是不是每一个标点符号都严格依据特工呈递上来的绝密资料？！ 一旦发现有一句是它自己“凭经验脑补瞎编的加餐”，答案忠实度评分立刻暴跌。

怎么救：回去改你的 System Prompt！例如加粗那句：“严格并只允许根据我提供给你的参考资料作答，哪怕资料里只写了一个字，你也不许加任何多余推断，否则你将被拔掉电源！”

[图片占位:(A clean, minimalist technical diagram on a solid white background. Use simple, crisp vector line art, monochrome or with very subtle minimal color accents. Flat design, no 3D effects, no clutter. Draw a magnifying glass hovering over two aligned lines of text with connecting arrows, representing strict verification of facts.)]

4. 三元组防线三：答案相关性 (Answer Relevance)

👉 问责对象：联合作战指挥部（系统的整体把控）

这也是我们在日常调试 AI 机器人时经常遇到的“车轱辘话”。

场景重现：

用户问：“苹果手机怎么截屏？”
特工找来了《苹果手机快捷操作手册》全文（相关度满分）。
首长严格依据手册，一字不差地背诵了怎么截屏，紧接着它还一字不差地背诵了怎么关机、怎么重启、怎么换电池（忠实度也满分，因为全是从资料里抄的，没有瞎编幻觉）。
最后扔给用户一个长达五千字的连篇累牍说明书段落。

裁判上场： GPT-4 裁判看了直摇头。用户只是来问截屏的，你在这啰嗦啥？这就叫答案相关性分崩离析——尽管既找到了神准资料，也没有说一句谎，但是你的答案冗长、啰嗦、答非所问。

怎么救：调整生成层模型的指令，强制要求其必须简明扼要，直指痛点。

总结：这套名为 Ragas（Retrieval Augmented Generation Assessment）的工业级开源标准组件，把看似黑盒魔法的 RAG 管线量化成了三道冰冷的及格线。做 AI 应用，绝不是光鲜亮丽的奇迹魔法，它终究会落入像软件测试一样的冷酷监控链中。

完成了第 4 阶段的 RAG 外挂，你的大语言模型已然不是一具死板的复读机，它是装配了全球眼界的智囊库。但这依旧是一种被动的局面——只有当人类丢去文本时它才被动去按铃查字典。如果我们要让大模型掌握手眼协调能力，主动连线数据库、自发撰写提问调用函数、甚且独自谋划解决庞大冗长的自动化项目群呢？

一切尽在下一核心战役：第五阶段——Agent（智能体）与工具调用。

下一章: 5.1 基础引擎：ReAct与Tool Calling

1. 拆解失败：RAG 跌倒的三个大坑​

2. 三元组防线一：上下文相关性 (Context Relevance)​

3. 三元组防线二：答案忠实度 (Faithfulness)​

4. 三元组防线三：答案相关性 (Answer Relevance)​

目录

1. 拆解失败：RAG 跌倒的三个大坑

2. 三元组防线一：上下文相关性 (Context Relevance)

3. 三元组防线二：答案忠实度 (Faithfulness)

4. 三元组防线三：答案相关性 (Answer Relevance)