Skip to main content
CoNLL-U 是 CoNLL-X 格式的修订版本。注释以纯文本文件(UTF-8 编码,标准化为 NFC,仅使用 LF 字符作为换行符,文件末尾包含 LF 字符)存储,包含三种类型的行:
  • 词语行:包含以单个制表符分隔的 10 个字段,用于标注一个词语/词元;详见下文。
  • 空行:用于标记句子边界。
  • 注释行:以井号(#)开头。
以下示例演示如何加载 CoNLL-U 格式的文件。整个文件将被视为一个文档。示例数据(conllu.conllu)基于标准 UD/CoNLL-U 示例之一。
from langchain_community.document_loaders import CoNLLULoader
loader = CoNLLULoader("example_data/conllu.conllu")
document = loader.load()
document
[Document(page_content='They buy and sell books.', metadata={'source': 'example_data/conllu.conllu'})]