Skip to main content
Doctran 是一个 Python 包。它使用 LLM 和开源 NLP 库, 将原始文本转换为经过清理、结构化、信息密集、针对向量空间检索优化的文档。您可以将 Doctran 视为一个黑盒, 混乱的字符串进去,整洁、干净、有标签的字符串出来。

安装与设置

pip install doctran

文档转换器

文档问答器

查看 DoctranQATransformer 的使用示例
from langchain_community.document_transformers import DoctranQATransformer

属性提取器

查看 DoctranPropertyExtractor 的使用示例
from langchain_community.document_transformers import DoctranPropertyExtractor

文档翻译器

查看 DoctranTextTranslator 的使用示例
from langchain_community.document_transformers import DoctranTextTranslator