关键词撞库的极限
在上一套基础链路走通后,无论你在本地是用低配的 Chroma,还是在云端跑着重金购买的集群版 Milvus 加上顶级的 Reranker。一旦交付给真实用户,你马上就会发现一个令人绝望的现状: 普通的纯句意向量相似搜索,在面临刁钻的“大白话”提问时,会彻头彻尾地罢工。
这是因为系统里存的医学教科书记载的都是冰冷的《嘌呤代谢诱发尿酸结晶沉积析出机制论》。当用户焦急地发了一条“半夜痛风脚指头红肿怎么治?”时,这句极度口语化的长尾提问无论在词表还是向量坐标上,都极其难与那篇专业的病理学术干货挂钩匹配上。
这不仅是 RAG 的劫难,更是横亘在真实业务转化上的天坑落差。怎么破?这逼迫业界的大神们脑洞大开地掀起了一堆魔改黑科技。