Skip to main content
Visio 文件(扩展名为 .vsdx)与 Microsoft Visio(一款图表创建软件)相关联,存储着图表的结构、布局和图形元素等信息。该格式便于在商业、工程和计算机科学等领域创建和共享可视化内容。
Visio 文件可以包含多个页面,其中一些页面可能作为其他页面的背景,并且可以跨多个图层。该加载器可提取每个页面及其关联页面的文本内容,能够提取每个页面上所有可见文本,类似于 OCR 算法的效果。 警告:只有扩展名为 .vsdx 的 Visio 文件才与此加载器兼容。扩展名为 .vsd 等的文件不兼容,因为它们无法转换为压缩的 XML 格式。
from langchain_community.document_loaders import VsdxLoader
loader = VsdxLoader(file_path="./example_data/fake.vsdx")
documents = loader.load()
显示已加载的文档
for i, doc in enumerate(documents):
    print(f"\n------ Page {doc.metadata['page']} ------")
    print(f"Title page : {doc.metadata['page_name']}")
    print(f"Source : {doc.metadata['source']}")
    print("\n==> CONTENT <== ")
    print(doc.page_content)
------ Page 0 ------
Title page : Summary
Source : ./example_data/fake.vsdx

==> CONTENT <==
Created by
Created the
Modified by
Modified the
Version
Title
Florian MOREL
2024-01-14
FLORIAN Morel
Today
0.0.0.0.0.1
This is a title
Best Caption of the worl
This is an arrow
This is Earth
This is a bounded arrow

------ Page 1 ------
Title page : Glossary
Source : ./example_data/fake.vsdx

==> CONTENT <==
Created by
Created the
Modified by
Modified the
Version
Title
Florian MOREL
2024-01-14
FLORIAN Morel
Today
0.0.0.0.0.1
This is a title