RAG(Retrieval-Augmented Generation,检索增强生成)是当前大模型应用中最常见、也最容易落地的一种架构。
简单来说:
在模型回答问题之前,先从你的知识库中找出相关内容,再把这些内容一并交给模型生成答案。
这一篇将基于一个最小可用、但工程上完整的 RAG 流程,从零梳理:
Document一个最基本的 RAG 系统,至少包含以下 5 个步骤:
js原始文档
↓ 加载
Document
↓ 切分
Chunks
↓ 向量化
VectorStore
↓ 检索
Relevant Docs
↓ 送给 LLM
Answer
我们可以使用LangChain,将上面的步骤拆成一组可组合、可替换的组件,下面我们按这个顺序一步一步来。
文档加载器作用:
把各种格式的文件,统一转成 Document 对象。
Document 是什么LangChain 中所有 RAG 的基础数据结构都是:
pythonfrom langchain_core.documents import Document
Document(
page_content="正文内容",
metadata={"page": 1, "source": "xxx.pdf"}
)
page_content:参与向量化和生成的文本metadata:不参与 embedding,但可用于过滤、追溯来源后面的切分、存储、检索,本质上都是在操作 List[Document]。
pythonfrom langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader("example.pdf")
# 按页加载
docs = loader.load()
pythonfrom langchain_community.document_loaders import Docx2txtLoader
loader = Docx2txtLoader("example.docx")
docs = loader.load()
pythonfrom langchain_community.document_loaders import UnstructuredMarkdownLoader
loader = UnstructuredMarkdownLoader("README.md")
docs = loader.load()
pythonfrom langchain_community.document_loaders import TextLoader
loader = TextLoader("data.txt", encoding="utf-8")
docs = loader.load()
大模型并不适合直接吃整篇文档:
切分策略,直接决定 RAG 的上限。
基于固定字符长度切分,简单、可控:
pythonfrom langchain.text_splitter import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
separator="\n\n", # 使用两个换行符作为分隔符
chunk_size=1000, # 每个文本块的最大字符数
chunk_overlap=200 # 相邻块之间的重叠字符数
)
split_docs = text_splitter.split_documents(docs)
适合结构简单、段落清晰的文本。
按设定的分隔符列表递归尝试切分文本,直到每个块的大小不超过设定的 chunk_size,并保留一定的 chunk_overlap 以减少上下文丢失。这种方式能最大限度保持段落、句子、单词的完整性,非常适合长文本处理、向量化检索和 RAG 场景。
pythonfrom langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
chunk_size=500, # 每个文本块的最大字符数
chunk_overlap=50, # 相邻块之间的重叠字符数
separators=["\n\n", "\n", "。", " ", ""], # 递归尝试切分文本的标识
keep_separator=True # 支持保持分隔符
)
split_docs = text_splitter.split_documents(docs)
这是 RAG 中最常用的切分方式。
在前面的步骤中,我们已经拿到了List[Document]
但向量数据库并不能直接存文本,它真正存的是使用向量模型向量化后的高维浮点数组。 这个过程,就叫 Embedding(向量化)。
Embedding 的作用:
把“文本的语义”,映射成一个可以计算距离的向量。
之后所有的检索,都是在:
“问题的向量,和哪一段文档的向量最接近?”
以 bge-base-zh 为例(中文效果很好):
pythonfrom langchain_community.embeddings import HuggingFaceEmbeddings
def get_embeddings():
return HuggingFaceEmbeddings(
model_name="BAAI/bge-large-zh-v1.5",
model_kwargs={"device": "cuda"}, # 或 cpu
encode_kwargs={"normalize_embeddings": True} # 配合 cosine 相似度效果更稳定
)
在使用 cosine 相似度时,建议开启 normalize_embeddings=True,可以让不同长度文本的向量分布更稳定。
首次加载需要在HuggingFace中下载模型,如果网络问题下载不下来可以使用阿里魔塔等镜像网站下载到本地,然后将
BAAI/改成本地路径
pythonfrom langchain_community.embeddings import DashScopeEmbeddings
def get_embeddings():
return DashScopeEmbeddings(
model="text-embedding-v3",
dashscope_api_key="sk-xxx"
)
这里使用 PostgreSQL + pgvector 作为示例。
你可能注意到了一个细节:我们从来没有手动调用 embedding.embed(),这是因为: LangChain 把 embedding 的调用,隐藏在 VectorStore 内部了
python
from langchain_postgres import PGVector
vectorstore = PGVector(
embeddings=get_embeddings(), # 使用定义好的嵌入模型进行向量检索和入库
collection_name="knowledge_base",
connection="postgresql+psycopg://user:password@host:5432/db"
)
# 写入向量库
vectorstore.add_documents(split_docs)
⚠️ 注意:向量入库和向量检索必须使用完全相同的 Embedding 模型和参数,否则即使文档存在,也几乎无法被检索到。
python
retriever = vectorstore.as_retriever(
search_type="similarity", #按照分值,取最高的
search_kwargs={
"k": 20, #检索前20个相似的
"filter": {"tag": "主角"} #ai或人工标注的标签
}
)
results = retriever.invoke("孙悟空是谁")
常见的检索方式还有:
search_type="mmr":在相似度和多样性之间做平衡search_type="similarity_score_threshold":按阈值过滤常见filter写法
python# 等于
{"filter": {"uuid": "123"}}
# 或
{"filter": {"$or": [{"type": "1"}, {"type": "2"}]}}
# 范围
{"filter": {"year": {"$gte": 2020, "$lte": 2024}}}
在 RAG 中,最常见的一步是 向量相似度检索: 把问题和文档都映射成向量,然后找“最相似”的文本片段。
但在真实工程中,你很快就会发现一个问题: 向量召回到的,是“语义相似”的内容,但不一定是“最相关、最可用”的内容。
向量检索(Embedding Search)的本质是:
这意味着它擅长的是:
但它 并不理解任务目标,比如:哪一段更适合回答“定义型问题” 哪一段是结论,哪一段只是背景,哪一段虽然语义相似,但其实是反例 / 否定 / 无关描述
举个例子:
问题:“孙悟空是谁?”
向量检索可能会召回:
这些内容都“像”孙悟空,但真正适合直接喂给 LLM 的,可能只有其中 1~2 段。如果全部召回,并喂给大模型又会因为噪音过大,幻觉概率变高
所以我们需要重排序(Rerank)拿到真正需要的内容
它是「问题 × 文档」成对判断,而不是各自向量化后比距离。
Rerank 是精匹配,不是近似匹配,以 CrossEncoder / DashScopeRerank 为代表的 rerank 模型。他会把问题 + 文档片段拼在一起,直接判断:这段内容,对回答这个问题有没有帮助
这意味着它能识别:
所以一个成熟、稳定的检索流程通常是 使用向量召回快速找“可能相关的候选集”然后使用重排序从候选集中找top(N) “最有用的内容”
使用HuggingFace 本地模型进行重排序,这里我们使用 bge-reranker-base
python
from langchain_community.cross_encoders import HuggingFaceCrossEncoder
from langchain.retrievers.document_compressors.cross_encoder_rerank import CrossEncoderReranker
reranker = CrossEncoderReranker(
model=HuggingFaceCrossEncoder("bge-reranker-base"),
top_n=5
)
也可以使用云端服务提供的重排序,比如阿里的gte-rerank-v2
python
from langchain_community.document_compressors.dashscope_rerank import DashScopeRerank
reranker = DashScopeRerank(
model="gte-rerank-v2",
dashscope_api_key="sk-xxx",
top_n=5
)
把 召回 + 重排序 封装成一个整体:
python
from langchain.retrievers import ContextualCompressionRetriever
from langchain_core.runnables import RunnableLambda
compression_retriever = ContextualCompressionRetriever(
base_retriever=retriever,
base_compressor=reranker
)
results = compression_retriever.invoke("孙悟空是谁")
python
chain = compression_retriever | prompt | llm | StrOutputParser()
chain.invoke("孙悟空是谁")
这一篇从真实工程路径出发,梳理了一个完整的 LangChain RAG 流程:
理解这些之后,每一步都可以独立替换和优化
后续无论是:
本质上,都只是这些 Runnable 的不同组合形式。
本文作者:鑫 · Dev
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!