Nimble 的 Extract API 通过无头浏览器浏览指定 URL 来提取渲染后的内容,而非依赖缓存或受 API 限制的数据。该检索器可处理 JavaScript 渲染、动态内容和复杂的导航流程,适用于需要访问特定网页的 RAG 应用,包括分页、过滤器和客户端渲染背后的内容。我们可以将其用作检索器。本文将展示该集成的特定功能。阅读完毕后,建议探索相关用例页面,以了解如何将此检索器作为更大链的一部分使用。
安装
使用
现在可以实例化我们的检索器:在链中使用
我们可以轻松地将此检索器集成到 RAG 链中,用于提取和分析特定网页内容:高级配置
该检索器支持对 URL 提取进行广泛配置:| 参数 | 类型 | 默认值 | 说明 |
|---|---|---|---|
parsing_type | str | ”plain_text” | 输出格式:“plain_text”、“markdown” 或 “simplified_html” |
driver | str | ”vx6” | 浏览器驱动版本:“vx6”(快速)、“vx8”(均衡)或 “vx10”(全面) |
wait | int | None | 等待页面加载的毫秒数(0-60000) |
render | bool | True | 启用 JavaScript 渲染 |
locale | str | ”en” | 页面语言区域偏好(如 “en-US”) |
country | str | ”US” | 本地化内容的国家代码(如 “US”) |
api_key | str | 环境变量 | Nimble API 密钥(默认读取 NIMBLE_API_KEY 环境变量) |
最佳实践
驱动程序选择
- vx6(默认):适用于标准网站的快速提取
- vx8:适用于中等复杂度网站的均衡性能
- vx10:适用于 JavaScript 密集型 SPA 和复杂动态内容的全面渲染
页面加载配置
- 不等待(
wait=None):适用于大多数现代网站的默认设置 - 短暂等待(
wait=1000-2000):适用于懒加载或延迟内容的页面 - 较长等待(
wait=5000+):适用于加载缓慢的 SPA 或需要时间完整渲染的重度 JavaScript 页面
输出格式选择
- 纯文本(默认):快速提取原始文本内容
- Markdown:最适合 RAG——保留带标题、列表和代码块的结构
- HTML:需要保留详细样式或结构信息时使用
性能优化
- 调整等待时间:仅在必要时使用——快速网站不需要等待时间
- 批量处理相关 URL:并行提取同一域名下的多个页面
- 选择合适格式:RAG 使用 Markdown,简单处理使用纯文本
- 使用异步:利用
ainvoke()进行并发 URL 提取 - 验证内容:在处理前确认页面加载成功
API 参考
有关所有NimbleExtractRetriever 功能和配置的详细文档,请访问 Nimble API 文档。
通过 MCP 将这些文档连接到 Claude、VSCode 等工具,获取实时答案。

