不知道大家在日常使用 ChatGPT 或其他国产大模型时,有没有遇到过这几种“抓狂”的情况:
一本正经地胡说八道(AI 幻觉);
问它最新的新闻,它说“我的知识库截止到 2023 年”;
问它公司的内部政策,它完全不知道你在说什么。
如果你没遇到过,那肯定是因为你用的还不够多。😂
其实,要解决这个问题,除了等待模型厂商更新、期待国产模型崛起之外,我们现在就可以动手解决——那就是给大模型外挂一个**“知识库”**。
今天,我们就来聊聊这个让 AI 变聪明的核心技术:RAG(检索增强生成)。
01 什么是 RAG?给大模型来场“开卷考试”
我们先直接看效果。这是我在CherryStudio中配置好知识库后的问答表现:
你可以看到,AI 不再是凭空捏造,而是基于我提供的文档给出了准确答案。
如果把大模型比作一个博学但知识停留在过去的“超级考生”,那么 RAG 就是允许它参加“开卷考试”。
传统的 AI 回答是“闭卷考”,记住了多少写多少;而 RAG(Retrieval-Augmented Generation)允许 AI 在回答问题前,先去翻翻书(你的文档)。
整个 RAG 的过程其实就三步:
检索 (Retrieve):当你有问题时,系统先去“外部知识库”里查阅,找到最相关的几页“书”。
增强 (Augment):把找到的这些“参考资料”和你的“原始问题”打包在一起,变成一道新的指令。
生成 (Generate):大模型参考着这些资料,生成一个准确、可信的最终回答。
一句话总结:RAG 的本质,就是利用外部知识库,让大模型说真话、不说空话。
02 为什么你的 RAG 还是不准?细节决定成败
很多朋友尝试过挂载知识库,但发现 AI 还是找不准答案。这通常是因为在**“流水线”**的细节上没处理好。
一个高质量的 RAG 流水线,这几个环节至关重要:
🔍 关键点一:文档预处理(让 AI 看懂人话)
很多人直接把 PDF 丢给 AI,但 PDF 复杂的排版、表格,AI 经常“看不懂”。如果输入的是乱码,输出的自然是胡话。
这里推荐一个国人开发的开源神器:Mineru。
它是一款 PDF 转 Markdown 的模型,对于复杂的论文排版、表格识别率极高。只有把数据清洗得足够干净(Parsing),AI 才能真正理解内容,而且还能帮你省下一大笔 Token 费用。
📐 关键点二:嵌入模型(Embeddings)
电脑是怎么理解“意思”的?
如果你搜“苹果”,电脑怎么知道你是指“水果”还是“手机”?
在 RAG 里,我们用Embeddings(嵌入)技术,把文字变成一串数字坐标(向量)。
在数学空间里,“香蕉”和“苹果”的坐标靠得很近。
而“香蕉”和“卡车”的坐标就离得很远。
当我们提问时,系统就是去数据库里“测量距离”,把距离最近的文档片段捞出来。
⚖️ 关键点三:重排模型(Rerank)—— RAG 的“老教授”
虽然 Embeddings 很厉害,但它为了速度,有时候会牺牲精度,捞回来一堆“看着像,其实没用”的内容。
这就好比你去图书馆,管理员一口气给你抱来 50 本书。如果你把这 50 本书全扔给大模型,它会“晕”的(迷失中间效应)。
这时候,我们需要引入Rerank(重排模型)。
重排就像一位经验丰富的老教授。他会把初筛出来的 50 本书仔细看一遍,然后告诉你:“第 3 本、第 18 本才是你真正需要的,其他的都可以扔掉。”
有了 Rerank,RAG 的准确率会有一个质的飞跃。
03 总结:从原始数据到智能回答
最后,让我们复盘一下 RAG 的核心流水线:
数据解析 (Parsing):用 Mineru 等工具把 PDF 洗成纯净文本。
切片 (Chunking):像剪刀一样把长文切成短小精悍的碎片。
嵌入 (Embedding):把文字变成向量,存入数据库。
检索与重排 (Retrieval & Rerank):先海选,再精选(重排)。
生成 (Generation):大模型基于精华内容输出答案。
这就是From Raw Data to Intelligent Answer的全过程。
