脱下“关键词搜寻”的紧身衣
在 4.1 和 4.2 节中,哪怕使用了最时髦的稠密向量查找+纯文本 BM25 稀疏匹配(混合搜索),RAG 系统依然会遭遇工业界的两大史诗级滑铁卢:
- “挤牙膏式”提问:用户常扔出一个惜字如金的“请假规定”。系统拿着这 4 个字去浩如烟海的合同里算向量夹角,它根本不知道用户想查的是病假流程还是年假天数。
- “大海捞针式”长线逻辑:用户问“分析苹果过去三年高管变动的连锁影响”,普通的 Chunking 切块策略会把不同年份的新闻切成数千块碎片。向量库能命中所有的碎片,但 AI 根本无法将其倒推连接成一张宏大的关系网。
在这节,我们将深入到图谱中 P1 级别的两件镇山之宝:HyDE 生成假答案与 GraphRAG 知识图谱。