Airbyte 是一个用于从 API、数据库和文件到数据仓库与数据湖的 ELT 管道数据集成平台。它拥有最大的面向数据仓库和数据库的 ELT 连接器目录。本文介绍如何将 Airbyte 的任何数据源加载为 LangChain 文档。
安装
要使用AirbyteLoader,您需要安装 langchain-airbyte 集成包。
airbyte 库不支持 Pydantic v2。
请降级到 Pydantic v1 以使用此包。
注意:此包目前还需要 Python 3.10+。
加载文档
默认情况下,AirbyteLoader 将从流中加载任何结构化数据,并输出 yaml 格式的文档。
惰性加载文档
AirbyteLoader 的一个强大功能是能够从上游来源加载大型文档。在处理大型数据集时,默认的 .load() 行为可能会很慢且占用大量内存。为避免这种情况,您可以使用 .lazy_load() 方法以更节省内存的方式加载文档。
.alazy_load() 异步惰性加载文档:
配置
AirbyteLoader 可通过以下选项进行配置:
source(str,必填):要加载数据的 Airbyte 数据源名称。stream(str,必填):要加载数据的流名称(Airbyte 数据源可返回多个流)。config(dict,必填):Airbyte 数据源的配置。template(PromptTemplate,可选):用于格式化文档的自定义提示模板。include_metadata(bool,可选,默认 True):是否在输出文档中将所有字段作为元数据包含。
config 中,您可以在 Airbyte 文档的各数据源”配置字段参考”中找到具体的配置选项。
通过 MCP 将这些文档连接到 Claude、VSCode 等以获得实时解答。

