Polaris AI DataInsight 是一个文档解析器, 它从各种文件格式中提取文档元素(文本、图像、复杂表格、图表等), 将其转换为结构化 JSON,使其易于集成到 RAG 系统中。
安装
安装langchain-polaris-ai-datainsight 包。
pip install langchain-polaris-ai-datainsight
环境设置
确保设置以下环境变量:POLARIS_AI_DATA_INSIGHT_API_KEY:您的 Polaris AI DataInsight API 密钥。阅读 Polaris AI DataInsight 文档 以获取您的 API 密钥。
用法
import getpass
import os
os.environ["POLARIS_AI_DATA_INSIGHT_API_KEY"] = getpass.getpass(
"输入您的 PolarisAIDataInsight API 密钥:"
)
from langchain_polaris_ai_datainsight import PolarisAIDataInsightLoader
loader = PolarisAIDataInsightLoader(
file_path="example_data/polaris_ai_example.docx",
resources_dir="example_data/tmp",
mode="page", # "element"、"page" 或 "single"。(默认为 "single")
)
docs = loader.load() # 或 loader.lazy_load()
for doc in docs[:3]:
print(" --------- < 页面内容 > --------- ")
print(doc.page_content)
print(" --------- < 元数据 > --------- ")
print(doc.metadata)
print("\n")
--------- < 页面内容 > ---------
2025 种子计划申请
I. 按赛道划分的资金信息
1. 初级与高级赛道比较概述
<table><tbody><tr><td>类别</td><td>初级赛道*</td><td>高级赛道*</td></tr><tr><td>资金目标</td><td>位于韩国境外的大学,拥有中央赠款管理部门、现有的韩国研究基础设施,并计划建立教育基金会。</td><td>非韩国大学,拥有中央赠款管理部门、至少一名全职韩国研究教员、本科韩国研究专业或院系,并承诺支持韩国研究。</td></tr><tr><td>资金期限</td><td>3 年</td><td>5 年<3+2年></td></tr><tr><td>资金规模</td><td>最大可能资金取决于申请大学所在国家<br><table><tbody><tr><td>国家组别*</td><td>最大资金**</td></tr><tr><td>A</td><td>最高 2 亿韩元</td></tr><tr><td>B</td><td>最高 5000 万韩元</td></tr></tbody></table></td><td>最大可能资金取决于申请大学所在国家<br><table><tbody><tr><td>国家组别*</td><td>最大资金**</td></tr><tr><td>A</td><td>最高 1.5 亿韩元</td></tr><tr><td>B</td><td>最高 9000 万韩元</td></tr></tbody></table></td></tr><tr><td>所需项目内容</td><td>· 资助 2 名或以上奖学金学生<br>· 提供 1 门或以上常规韩国研究讲座课程(不包括韩语课程)<br>· 每年举办 1 次或以上学生可参与的研讨会</td><td>· 聘请 1 名或以上韩国研究全职教员<br>· 资助 1 名或以上韩国研究奖学金学生<br>· 提供 2 门或以上研究生级别韩国研究讲座课程(不包括韩语课程)<br>· 举办 1 次或以上国际韩国研究会议<br>· 建立并管理与计划相关的网站、博客或社交媒体</td></tr><tr><td>推荐内容</td><td>· 培养人才(教育)<br>· 建立韩国研究学院/中心<br>· 建立韩国研究本科院系/专业及计划<br>· 开发韩国研究教材<br>· 举办学术活动</td><td>· 培养人才(教育)<br>· 建立韩国研究学院/中心<br>· 建立韩国研究硕士/博士院系/专业及计划<br>· 开发韩国研究教材<br>· 举办学术活动</td></tr></tbody></table>
<img id="di.image.im12" data-category="image"/>
2 / 3
--------- < 元数据 > ---------
{'di.text.he2te0': {'id': 'di.text.he2te0', 'type': 'text'}, 'di.text.te0': {'id': 'di.text.te0', 'type': 'text'}, 'di.text.te2': {'id': 'di.text.te2', 'type': 'text'}, 'di.table.ta9': {'id': 'di.table.ta9', 'type': 'table'}, 'di.image.im12': {'id': 'di.image.im12', 'type': 'image', 'src': '/home/jenkins_agent/Project/langchain/docs/docs/integrations/document_loaders/example_data/tmp/tmpaynkptxx/polaris_ai_example.docx_image12.png'}, 'di.text.fo3te0': {'id': 'di.text.fo3te0', 'type': 'text'}}
--------- < 页面内容 > ---------
2025 种子计划申请
II. 审查与选拔
1. 审查流程
<img id="di.image.im13" data-category="image"/>
审查申请是否满足基本要求
审查项目提案
由专家审查团队管理
最终审查与决定
由综合审查委员会管理
1. 初步审查
2. 内容审查(80 分)
3. 综合审查(20 分)
2. 审查阶段与内容
阶段 1:初步审查
由主部门执行
● 核实文件提交、资格和重叠支持。
● 缺少所需文件、签名或不符合资格的申请不予通过。
● 间接费用超过直接费用(包括人工费用)10% 的申请将被拒绝。
阶段 2:内容审查
由专家审查团队执行
● 在线审查:单独评分
● 小组审查:通过共识确定评分
● 评估领导潜力、能力和项目计划。
● 分配评估项目和分数。
<table><tbody><tr><td>领域</td><td>项目(分数)</td><td>内容</td></tr></tbody></table>
2 / 3
--------- < 元数据 > ---------
{'di.text.he2te0': {'id': 'di.text.he2te0', 'type': 'text'}, 'di.text.te10': {'id': 'di.text.te10', 'type': 'text'}, 'di.text.te12': {'id': 'di.text.te12', 'type': 'text'}, 'di.image.im13': {'id': 'di.image.im13', 'type': 'image', 'src': '/home/jenkins_agent/Project/langchain/docs/docs/integrations/document_loaders/example_data/tmp/tmpaynkptxx/polaris_ai_example.docx_image13.png'}, 'di.text.sh15': {'id': 'di.text.sh15', 'type': 'text'}, 'di.text.sh16': {'id': 'di.text.sh16', 'type': 'text'}, 'di.text.sh16te0': {'id': 'di.text.sh16te0', 'type': 'text'}, 'di.text.sh17': {'id': 'di.text.sh17', 'type': 'text'}, 'di.text.sh18': {'id': 'di.text.sh18', 'type': 'text'}, 'di.text.sh19': {'id': 'di.text.sh19', 'type': 'text'}, 'di.text.sh19te0': {'id': 'di.text.sh19te0', 'type': 'text'}, 'di.text.sh19te1': {'id': 'di.text.sh19te1', 'type': 'text'}, 'di.text.sh20': {'id': 'di.text.sh20', 'type': 'text'}, 'di.text.sh21': {'id': 'di.text.sh21', 'type': 'text'}, 'di.text.sh22': {'id': 'di.text.sh22', 'type': 'text'}, 'di.text.sh22te0': {'id': 'di.text.sh22te0', 'type': 'text'}, 'di.text.sh22te1': {'id': 'di.text.sh22te1', 'type': 'text'}, 'di.text.sh23': {'id': 'di.text.sh23', 'type': 'text'}, 'di.text.sh23te0': {'id': 'di.text.sh23te0', 'type': 'text'}, 'di.text.sh24': {'id': 'di.text.sh24', 'type': 'text'}, 'di.text.sh24te0': {'id': 'di.text.sh24te0', 'type': 'text'}, 'di.text.sh25': {'id': 'di.text.sh25', 'type': 'text'}, 'di.text.sh25te0': {'id': 'di.text.sh25te0', 'type': 'text'}, 'di.text.te15': {'id': 'di.text.te15', 'type': 'text'}, 'di.text.te16': {'id': 'di.text.te16', 'type': 'text'}, 'di.text.te17': {'id': 'di.text.te17', 'type': 'text'}, 'di.text.te18': {'id': 'di.text.te18', 'type': 'text'}, 'di.text.te19': {'id': 'di.text.te19', 'type': 'text'}, 'di.text.te20': {'id': 'di.text.te20', 'type': 'text'}, 'di.text.te21': {'id': 'di.text.te21', 'type': 'text'}, 'di.text.te22': {'id': 'di.text.te22', 'type': 'text'}, 'di.text.te23': {'id': 'di.text.te23', 'type': 'text'}, 'di.text.te24': {'id': 'di.text.te24', 'type': 'text'}, 'di.text.te25': {'id': 'di.text.te25', 'type': 'text'}, 'di.text.te26': {'id': 'di.text.te26', 'type': 'text'}, 'di.table.ta26': {'id': 'di.table.ta26', 'type': 'table'}, 'di.text.fo3te0': {'id': 'di.text.fo3te0', 'type': 'text'}}
--------- < 页面内容 > ---------
2025 种子计划申请
<table><tbody><tr><td rowspan="3">项目基础评估 (40)</td><td>领导韩国研究的潜力 (20)</td><td>- 评估大学在历史和学科方面是否享有卓越声誉。<br>- 评估项目主任与当地研究人员之间的网络强度。</td></tr><tr><td>执行能力 (20)<br>资格标准 (10)</td><td>- 确定项目主任是否具备执行项目的技能和承诺(例如,韩语熟练度、机构内影响力、管理技能)。<br>- 审查韩国研究合作研究人员的成就。<br>- 确认人员(初级/高级)或课程(高级)是否符合资格标准。</td></tr><tr><td>大学支持 (10)</td><td>- 衡量机构支持韩国研究的意愿(财务、空间和人力资源、适当的间接费用比率)。<br>- 评估中央赠款管理部门的能力。</td></tr><tr><td rowspan="2">项目内容评估 (40)</td><td>项目计划 (30)</td><td>- 确保项目目标现实且定义明确。<br>- 验证计划是否符合当地条件。<br>- 审查项目团队结构的适当性。<br>- 评估预算计划是否反映当地价格水平。</td></tr></tbody></table>
2 / 3
--------- < 元数据 > ---------
{'di.text.he2te0': {'id': 'di.text.he2te0', 'type': 'text'}, 'di.table.ta29': {'id': 'di.table.ta29', 'type': 'table'}, 'di.text.fo3te0': {'id': 'di.text.fo3te0', 'type': 'text'}}
连接这些文档 到 Claude、VSCode 等,通过 MCP 获取实时答案。

