拒绝 AI 胡说八道:让大模型“说真话”的 RAG 技术
拒绝 AI 胡说八道:让大模型“说真话”的 RAG 技术

拒绝 AI 胡说八道:让大模型“说真话”的 RAG 技术

不知道大家在日常使用 ChatGPT 或其他国产大模型时,有没有遇到过这几种“抓狂”的情况:

一本正经地胡说八道(AI 幻觉);

问它最新的新闻,它说“我的知识库截止到 2023 年”;

问它公司的内部政策,它完全不知道你在说什么。

如果你没遇到过,那肯定是因为你用的还不够多。😂

其实,要解决这个问题,除了等待模型厂商更新、期待国产模型崛起之外,我们现在就可以动手解决——那就是给大模型外挂一个**“知识库”**。

今天,我们就来聊聊这个让 AI 变聪明的核心技术:RAG(检索增强生成)


01 什么是 RAG?给大模型来场“开卷考试”

我们先直接看效果。这是我在CherryStudio中配置好知识库后的问答表现:

你可以看到,AI 不再是凭空捏造,而是基于我提供的文档给出了准确答案。

如果把大模型比作一个博学但知识停留在过去的“超级考生”,那么 RAG 就是允许它参加“开卷考试”。

传统的 AI 回答是“闭卷考”,记住了多少写多少;而 RAG(Retrieval-Augmented Generation)允许 AI 在回答问题前,先去翻翻书(你的文档)。

整个 RAG 的过程其实就三步:

检索 (Retrieve):当你有问题时,系统先去“外部知识库”里查阅,找到最相关的几页“书”。

增强 (Augment):把找到的这些“参考资料”和你的“原始问题”打包在一起,变成一道新的指令。

生成 (Generate):大模型参考着这些资料,生成一个准确、可信的最终回答。

一句话总结:RAG 的本质,就是利用外部知识库,让大模型说真话、不说空话。


02 为什么你的 RAG 还是不准?细节决定成败

很多朋友尝试过挂载知识库,但发现 AI 还是找不准答案。这通常是因为在**“流水线”**的细节上没处理好。

一个高质量的 RAG 流水线,这几个环节至关重要:

🔍 关键点一:文档预处理(让 AI 看懂人话)

很多人直接把 PDF 丢给 AI,但 PDF 复杂的排版、表格,AI 经常“看不懂”。如果输入的是乱码,输出的自然是胡话。

这里推荐一个国人开发的开源神器:Mineru

它是一款 PDF 转 Markdown 的模型,对于复杂的论文排版、表格识别率极高。只有把数据清洗得足够干净(Parsing),AI 才能真正理解内容,而且还能帮你省下一大笔 Token 费用。

📐 关键点二:嵌入模型(Embeddings)

电脑是怎么理解“意思”的?

如果你搜“苹果”,电脑怎么知道你是指“水果”还是“手机”?

在 RAG 里,我们用Embeddings(嵌入)技术,把文字变成一串数字坐标(向量)。

在数学空间里,“香蕉”和“苹果”的坐标靠得很近。

而“香蕉”和“卡车”的坐标就离得很远。

当我们提问时,系统就是去数据库里“测量距离”,把距离最近的文档片段捞出来。

⚖️ 关键点三:重排模型(Rerank)—— RAG 的“老教授”

虽然 Embeddings 很厉害,但它为了速度,有时候会牺牲精度,捞回来一堆“看着像,其实没用”的内容。

这就好比你去图书馆,管理员一口气给你抱来 50 本书。如果你把这 50 本书全扔给大模型,它会“晕”的(迷失中间效应)。

这时候,我们需要引入Rerank(重排模型)

重排就像一位经验丰富的老教授。他会把初筛出来的 50 本书仔细看一遍,然后告诉你:“第 3 本、第 18 本才是你真正需要的,其他的都可以扔掉。”

有了 Rerank,RAG 的准确率会有一个质的飞跃。


03 总结:从原始数据到智能回答

最后,让我们复盘一下 RAG 的核心流水线:

数据解析 (Parsing):用 Mineru 等工具把 PDF 洗成纯净文本。

切片 (Chunking):像剪刀一样把长文切成短小精悍的碎片。

嵌入 (Embedding):把文字变成向量,存入数据库。

检索与重排 (Retrieval & Rerank):先海选,再精选(重排)。

生成 (Generation):大模型基于精华内容输出答案。

这就是From Raw Data to Intelligent Answer的全过程。