文本分割器集成

pip install -U langchain-text-splitters

文本分割器将大型文档拆分为较小的块，以便单独检索并适应模型上下文窗口限制。有几种分割文档的策略，每种都有其自身的优势。

对于大多数用例，请从 RecursiveCharacterTextSplitter 开始。它在保持上下文完整性和管理块大小之间提供了坚实的平衡。这种默认策略开箱即用，效果良好，只有在需要为特定应用微调性能时才应考虑调整它。

基于文本结构

文本自然组织成层次单元，如段落、句子和单词。我们可以利用这种固有结构来指导分割策略，创建保持自然语言流程、在分割块内保持语义连贯性并适应不同文本粒度级别的分割。LangChain 的 RecursiveCharacterTextSplitter 实现了这一概念：

RecursiveCharacterTextSplitter 尝试保持较大的单元（例如段落）完整。
如果某个单元超过块大小，则移动到下一级别（例如句子）。
此过程在必要时会一直向下进行到单词级别。

示例用法：

from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0)
texts = text_splitter.split_text(document)

可用的文本分割器：

递归分割文本

基于长度

一种直观的策略是根据文档长度进行分割。这种简单而有效的方法确保每个块不超过指定的大小限制。基于长度分割的主要优势：

实现简单
块大小一致
易于适应不同的模型要求

基于长度分割的类型：

基于令牌：根据令牌数量分割文本，在使用语言模型时非常有用。
基于字符：根据字符数量分割文本，在不同类型的文本中可能更一致。

使用 LangChain 的 CharacterTextSplitter 进行基于令牌分割的示例实现：

from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    encoding_name="cl100k_base", chunk_size=100, chunk_overlap=0
)
texts = text_splitter.split_text(document)

可用的文本分割器：

基于文档结构

某些文档具有固有结构，例如 HTML、Markdown 或 JSON 文件。在这些情况下，根据文档结构进行分割是有益的，因为它通常自然地将语义相关的文本分组。基于结构分割的主要优势：

保留文档的逻辑组织
在每个块内保持上下文
对于下游任务（如检索或摘要）可能更有效

基于结构分割的示例：

Markdown：根据标题分割（例如 #、##、###）
HTML：使用标签分割
JSON：按对象或数组元素分割
代码：按函数、类或逻辑块分割

可用的文本分割器：

在 GitHub 上编辑此页面或提交问题。

通过 MCP 将这些文档连接到 Claude、VSCode 等以获取实时答案。

Popular Providers

Integrations by component

基于文本结构

基于长度

基于文档结构

Popular Providers

Integrations by component

​基于文本结构

​基于长度

​基于文档结构

基于文本结构

基于长度

基于文档结构