Skip to main content
Diffbot 是一套基于 ML 的产品,使结构化和集成网络数据变得简便。

安装与设置

获取免费的 Diffbot API 令牌按照这些说明对您的请求进行身份验证。

文档加载器

Diffbot 的 Extract API 是一种对网页数据进行结构化和标准化的服务。 与传统的网络抓取工具不同,Diffbot Extract 无需任何规则即可读取页面上的内容。它使用计算机视觉模型将页面分类为 20 种可能类型之一,然后将原始 HTML 标记转换为 JSON。生成的结构化 JSON 遵循一致的基于类型的本体,使得可以使用相同的 schema 从多个不同的网络来源提取数据。 查看使用示例
from langchain_community.document_loaders import DiffbotLoader

图谱

Diffbot 的自然语言处理 API 允许从非结构化文本数据中提取实体、关系和语义含义。 查看使用示例
from langchain_experimental.graph_transformers.diffbot import DiffbotGraphTransformer