CheerioWebBaseLoader 文档加载器 的快速入门概述。有关所有 CheerioWebBaseLoader 功能和配置的详细文档,请前往 API 参考。
概述
集成详情
本示例介绍如何使用 Cheerio 从网页加载数据。每个网页将创建一个文档。 Cheerio 是一个快速且轻量级的库,允许您使用类似 jQuery 的语法解析和遍历 HTML 文档。您可以使用 Cheerio 从网页提取数据,而无需在浏览器中渲染它们。 但是,Cheerio 不模拟 Web 浏览器,因此无法在页面上执行 JavaScript 代码。这意味着它无法从需要 JavaScript 渲染的动态网页中提取数据。为此,您可以改用PlaywrightWebBaseLoader 或 PuppeteerWebBaseLoader。
| 类 | 包 | 本地 | 可序列化 | PY 支持 |
|---|---|---|---|---|
CheerioWebBaseLoader | @langchain/community | ✅ | ✅ | ❌ |
加载器功能
| 来源 | Web 支持 | Node 支持 |
|---|---|---|
CheerioWebBaseLoader | ✅ | ✅ |
设置
要访问CheerioWebBaseLoader 文档加载器,您需要安装 @langchain/community 集成包以及 cheerio 对等依赖项。
凭据
如果您想自动跟踪模型调用,还可以通过取消注释以下内容来设置您的 LangSmith API 密钥:安装
LangChain CheerioWebBaseLoader 集成位于@langchain/community 包中:
实例化
现在我们可以实例化我们的模型对象并加载文档:加载
其他配置
CheerioWebBaseLoader 在实例化加载器时支持额外的配置。以下是如何使用 selector 字段的示例,使其仅从提供的 HTML 类名加载内容:
API 参考
有关所有CheerioWebBaseLoader 功能和配置的详细文档,请前往 API 参考。
连接这些文档 到 Claude、VSCode 等,通过 MCP 获取实时答案。

