RAG 实践：让大模型拥有外部知识 | lum7na的大模型技术分享

检索增强生成（Retrieval-Augmented Generation, RAG）是解决大模型知识局限性的重要技术方案。

为什么需要 RAG？

大语言模型存在两个核心局限：

RAG 通过在生成前检索相关文档，将外部知识注入上下文，有效缓解上述问题。

用户查询 → 向量化 → 检索 Top-K 文档 → 拼接 Prompt → LLM 生成回答

将知识库文档切分为合适大小的 chunk（通常 256-512 tokens），使用 Embedding 模型向量化后存入向量数据库。

将检索到的文档片段与用户问题一起构造 Prompt，引导模型基于给定上下文回答。

RAG 是当前企业级 LLM 应用最主流的架构模式，值得深入实践。