跳到主要内容

4.4 RAG 专职评估:科学拦截幻觉与答非所问

阅读需 6 分钟
wqz
RAG 也会“不懂装懂”

我们在前面三节给大模型接入了向量数据库,让它学会了查资料。 你用“请假打卡怎么扣工资”测试了一次,它拿着员工手册回答得井井有条,你很满意,于是就让它上线去为全公司服务了。

但是第二天灾难就发生了。当董事长问它一个财报里没写具体数字的“敏感营业额”时,它为了展现自己的博学,居然利用大模型自身的“幻觉”,凭空捏造了一个离谱的数字糊脸。

不要相信模型! 在把你的 RAG 系统推上生产线之前,你必须有一套冰冷的仪器来拦截这些灾难。这就是工业界必备的 Ragas(或 TruLens)自动化评测框架。 在《知识图谱》的版图里,这通常被称为“RAG 评估三元组”。


1. 拆解失败:RAG 跌倒的三个大坑

RAG(检索增强生成)是由两个完全独立的零件拼接的车厢:前哨查库特工(检索器)后方嘴炮首长(生成器)。 如果系统答错了,锅在谁身上?这就是我们在监控排查时遇到的最烦人的扯皮。

我们需要引入一位铁面无私的裁判(也就是行业里常说的利用最强能力的大模型,比如 GPT-4,通过特定的 Prompt 公式来当裁判,即 LLM-as-a-Judge 模式),它专门拿着红笔,对这套系统里的每一步打乱拳。

[图片占位:(A clean, minimalist technical diagram on a solid white background. Use simple, crisp vector line art, monochrome or with very subtle minimal color accents. Flat design, no 3D effects, no clutter. Draw three interconnected pillars forming a triangle representing the evaluation triad.)]


2. 三元组防线一:上下文相关性 (Context Relevance)

👉 问责对象:前哨查库特工(向量检索器)

场景重现

  • 用户问:“今天食堂吃什么?”
  • 我们花了大价钱用了刚才讲过的【混合搜素+重排】神仙组合,结果特工千辛万苦爬上岸,只甩给了首长一张“保洁阿姨招聘启事”、一张“食堂消防演习指南”。

裁判上场: GPT-4 裁判会把“前线捡回来的破资料”和“用户的原提问”放在天平上对比。如果是答非所问、全是噪声,这层评分就会挂 0。 一旦挂 0,首长(生成大模型)就算是再怎么妙笔生花,也只能无奈地回答出那句“抱歉,资料里没写”。

怎么救:不要去骂大模型。你该回去调整你切分文档(Chunking)的颗粒度,或是引入 HyDE(上一节讲的变种)。


3. 三元组防线二:答案忠实度 (Faithfulness)

👉 问责对象:后方嘴炮首长(生成器大模型)

这是引发严重事故的第一元凶:幻觉!

场景重现

  • 用户问:“退款周期是多久?”
  • 前线特工非常神勇,捞上来的绝密资料上白纸黑字写着:“7-10 个工作日。”
  • 结果后方首长(基座大模型)看了这几个字,觉得气势不够,大嘴一咧自作主张回复:“您好,退款通常在 7-10 个工作日,不过凭借我博学的网络知识,一般 2 天内钱就能到您账户,请放心!”

裁判上场: GPT-4 裁判拿着放大镜,对着首长吐出来的这段话逐句核对:你说的这一切,是不是每一个标点符号都严格依据特工呈递上来的绝密资料?! 一旦发现有一句是它自己“凭经验脑补瞎编的加餐”,答案忠实度评分立刻暴跌。

怎么救:回去改你的 System Prompt!例如加粗那句:“严格并只允许根据我提供给你的参考资料作答,哪怕资料里只写了一个字,你也不许加任何多余推断,否则你将被拔掉电源!

[图片占位:(A clean, minimalist technical diagram on a solid white background. Use simple, crisp vector line art, monochrome or with very subtle minimal color accents. Flat design, no 3D effects, no clutter. Draw a magnifying glass hovering over two aligned lines of text with connecting arrows, representing strict verification of facts.)]


4. 三元组防线三:答案相关性 (Answer Relevance)

👉 问责对象:联合作战指挥部(系统的整体把控)

这也是我们在日常调试 AI 机器人时经常遇到的“车轱辘话”。

场景重现

  • 用户问:“苹果手机怎么截屏?”
  • 特工找来了《苹果手机快捷操作手册》全文(相关度满分)。
  • 首长严格依据手册,一字不差地背诵了怎么截屏,紧接着它还一字不差地背诵了怎么关机、怎么重启、怎么换电池(忠实度也满分,因为全是从资料里抄的,没有瞎编幻觉)。
  • 最后扔给用户一个长达五千字的连篇累牍说明书段落。

裁判上场: GPT-4 裁判看了直摇头。 用户只是来问截屏的,你在这啰嗦啥?这就叫答案相关性分崩离析——尽管既找到了神准资料,也没有说一句谎,但是你的答案冗长、啰嗦、答非所问。

怎么救:调整生成层模型的指令,强制要求其必须简明扼要,直指痛点。


总结: 这套名为 Ragas(Retrieval Augmented Generation Assessment)的工业级开源标准组件,把看似黑盒魔法的 RAG 管线量化成了三道冰冷的及格线。做 AI 应用,绝不是光鲜亮丽的奇迹魔法,它终究会落入像软件测试一样的冷酷监控链中。

完成了第 4 阶段的 RAG 外挂,你的大语言模型已然不是一具死板的复读机,它是装配了全球眼界的智囊库。 但这依旧是一种极其被动的局面——只有当人类丢去文本时它才被动去按铃查字典。如果我们要让大模型掌握手眼协调能力,主动连线数据库、自发撰写提问调用函数、甚且独自谋划解决极其庞大冗长的自动化项目群呢?

一切尽在下一核心战役:第五阶段——Agent(智能体)与工具调用。


下一章: 5.1 基础引擎:ReAct与Tool Calling

分享这篇文章
Loading Comments...