Polaris AI DataInsight 是一个文档解析器, 它可以从各种文件格式中提取文档元素(文本、图像、复杂表格、图表等)为结构化 JSON, 使其易于集成到 RAG 系统中。
安装
安装langchain-polaris-ai-datainsight 包。
pip install langchain-polaris-ai-datainsight
环境设置
确保设置以下环境变量:POLARIS_AI_DATA_INSIGHT_API_KEY:您的 Polaris AI DataInsight API 密钥。请阅读 Polaris AI DataInsight 文档 获取您的 API 密钥。
用法
import getpass
import os
os.environ["POLARIS_AI_DATA_INSIGHT_API_KEY"] = getpass.getpass(
"Enter your PolarisAIDataInsight API key: "
)
from langchain_polaris_ai_datainsight import PolarisAIDataInsightLoader
loader = PolarisAIDataInsightLoader(
file_path="example_data/polaris_ai_example.docx",
resources_dir="example_data/tmp",
mode="page", # "element"、"page" 或 "single"。(默认为 "single")
)
docs = loader.load() # 或 loader.lazy_load()
for doc in docs[:3]:
print(" --------- < 页面内容 > --------- ")
print(doc.page_content)
print(" --------- < 元数据 > --------- ")
print(doc.metadata)
print("\n")
--------- < 页面内容 > ---------
2025 种子计划申请
I. 按轨道划分的资金信息
1. 初级与高级轨道对比概述
<table><tbody><tr><td>类别</td><td>初级轨道*</td><td>高级轨道*</td></tr><tr><td>资助目标</td><td>位于韩国以外、设有中央赠款管理部门、拥有现有韩国学基础设施并计划建立教育基金会的大学。</td><td>非韩国大学,设有中央赠款管理部门,至少有一名全职韩国学教职员工,设有韩国学本科专业或系,并承诺支持韩国学。</td></tr><tr><td>资助期限</td><td>3 年</td><td>5 年<3+2年></td></tr><tr><td>资助规模</td><td>最高可能资助金额取决于申请大学所在国家<br><table><tbody><tr><td>国家组别*</td><td>最高资助金额**</td></tr><tr><td>A</td><td>最高 2 亿韩元</td></tr><tr><td>B</td><td>最高 5000 万韩元</td></tr></tbody></table></td><td>最高可能资助金额取决于申请大学所在国家<br><table><tbody><tr><td>国家组别*</td><td>最高资助金额**</td></tr><tr><td>A</td><td>最高 1.5 亿韩元</td></tr><tr><td>B</td><td>最高 9000 万韩元</td></tr></tbody></table></td></tr><tr><td>必需项目内容</td><td>· 资助 2 名或以上奖学金学生<br>· 提供 1 门或以上常规韩国学讲座课程(不包括韩语课程)<br>· 每年举办 1 次或以上学生可参与的研讨会</td><td>· 聘用 1 名或以上韩国学全职教职员工<br>· 资助 1 名或以上韩国学奖学金学生<br>· 提供 2 门或以上常规研究生级别韩国学讲座课程(不包括韩语课程)<br>· 举办 1 次或以上国际韩国学会议<br>· 建立并管理与该计划相关的网站、博客或社交媒体</td></tr><tr><td>推荐内容</td><td>· 培养人才(教育)<br>· 建立韩国学研究所/中心<br>· 建立韩国学本科系/专业及课程<br>· 开发韩国学教材<br>· 举办学术活动</td><td>· 培养人才(教育)<br>· 建立韩国学研究所/中心<br>· 建立韩国学硕士/博士系/专业及课程<br>· 开发韩国学教材<br>· 举办学术活动</td></tr></tbody></table>
<img id="di.image.im12" data-category="image"/>
2 / 3
--------- < 元数据 > ---------
{'di.text.he2te0': {'id': 'di.text.he2te0', 'type': 'text'}, 'di.text.te0': {'id': 'di.text.te0', 'type': 'text'}, 'di.text.te2': {'id': 'di.text.te2', 'type': 'text'}, 'di.table.ta9': {'id': 'di.table.ta9', 'type': 'table'}, 'di.image.im12': {'id': 'di.image.im12', 'type': 'image', 'src': '/home/jenkins_agent/Project/langchain/docs/docs/integrations/document_loaders/example_data/tmp/tmpaynkptxx/polaris_ai_example.docx_image12.png'}, 'di.text.fo3te0': {'id': 'di.text.fo3te0', 'type': 'text'}}
--------- < 页面内容 > ---------
2025 种子计划申请
II. 评审与遴选
1. 评审流程
<img id="di.image.im13" data-category="image"/>
评审是否满足申请的基本要求
项目提案评审
由专家评审团队管理
最终评审与决定
由综合评审委员会管理
1. 初步评审
2. 内容评审(80 分)
3. 综合评审(20 分)
2. 评审阶段与内容
阶段 1:初步评审
由主要部门执行
● 核实文件提交、资格和重叠资助情况。
● 缺少必需文件、签名或不符合资格的申请不予推进。
● 间接费用超过直接费用(包括劳务费用)10% 的申请将被拒绝。
阶段 2:内容评审
由专家评审团队执行
● 在线评审:单独打分
● 小组评审:通过共识确定分数
● 评估领导潜力、能力和项目计划。
● 为评估分配项目和分数。
<table><tbody><tr><td>领域</td><td>项目(分数)</td><td>内容</td></tr></tbody></table>
2 / 3
--------- < 元数据 > ---------
{'di.text.he2te0': {'id': 'di.text.he2te0', 'type': 'text'}, 'di.text.te10': {'id': 'di.text.te10', 'type': 'text'}, 'di.text.te12': {'id': 'di.text.te12', 'type': 'text'}, 'di.image.im13': {'id': 'di.image.im13', 'type': 'image', 'src': '/home/jenkins_agent/Project/langchain/docs/docs/integrations/document_loaders/example_data/tmp/tmpaynkptxx/polaris_ai_example.docx_image13.png'}, 'di.text.sh15': {'id': 'di.text.sh15', 'type': 'text'}, 'di.text.sh16': {'id': 'di.text.sh16', 'type': 'text'}, 'di.text.sh16te0': {'id': 'di.text.sh16te0', 'type': 'text'}, 'di.text.sh17': {'id': 'di.text.sh17', 'type': 'text'}, 'di.text.sh18': {'id': 'di.text.sh18', 'type': 'text'}, 'di.text.sh19': {'id': 'di.text.sh19', 'type': 'text'}, 'di.text.sh19te0': {'id': 'di.text.sh19te0', 'type': 'text'}, 'di.text.sh19te1': {'id': 'di.text.sh19te1', 'type': 'text'}, 'di.text.sh20': {'id': 'di.text.sh20', 'type': 'text'}, 'di.text.sh21': {'id': 'di.text.sh21', 'type': 'text'}, 'di.text.sh22': {'id': 'di.text.sh22', 'type': 'text'}, 'di.text.sh22te0': {'id': 'di.text.sh22te0', 'type': 'text'}, 'di.text.sh22te1': {'id': 'di.text.sh22te1', 'type': 'text'}, 'di.text.sh23': {'id': 'di.text.sh23', 'type': 'text'}, 'di.text.sh23te0': {'id': 'di.text.sh23te0', 'type': 'text'}, 'di.text.sh24': {'id': 'di.text.sh24', 'type': 'text'}, 'di.text.sh24te0': {'id': 'di.text.sh24te0', 'type': 'text'}, 'di.text.sh25': {'id': 'di.text.sh25', 'type': 'text'}, 'di.text.sh25te0': {'id': 'di.text.sh25te0', 'type': 'text'}, 'di.text.te15': {'id': 'di.text.te15', 'type': 'text'}, 'di.text.te16': {'id': 'di.text.te16', 'type': 'text'}, 'di.text.te17': {'id': 'di.text.te17', 'type': 'text'}, 'di.text.te18': {'id': 'di.text.te18', 'type': 'text'}, 'di.text.te19': {'id': 'di.text.te19', 'type': 'text'}, 'di.text.te20': {'id': 'di.text.te20', 'type': 'text'}, 'di.text.te21': {'id': 'di.text.te21', 'type': 'text'}, 'di.text.te22': {'id': 'di.text.te22', 'type': 'text'}, 'di.text.te23': {'id': 'di.text.te23', 'type': 'text'}, 'di.text.te24': {'id': 'di.text.te24', 'type': 'text'}, 'di.text.te25': {'id': 'di.text.te25', 'type': 'text'}, 'di.text.te26': {'id': 'di.text.te26', 'type': 'text'}, 'di.table.ta26': {'id': 'di.table.ta26', 'type': 'table'}, 'di.text.fo3te0': {'id': 'di.text.fo3te0', 'type': 'text'}}
--------- < 页面内容 > ---------
2025 种子计划申请
<table><tbody><tr><td rowspan="3">项目基础评估(40)</td><td>引领韩国学的潜力(20)</td><td>- 评估该大学在历史和学术学科方面是否享有卓越声誉。<br>- 评估项目负责人与当地研究人员之间网络的强度。</td></tr><tr><td>执行能力(20)<br>资格标准(10)</td><td>- 确定项目负责人是否具备执行项目的技能和承诺(例如,韩语水平、机构内影响力、管理技能)。<br>- 审查合作研究人员在韩国学方面的成就。<br>- 确认人员(初级/高级)或课程(高级)是否符合资格标准。</td></tr><tr><td>大学支持(10)</td><td>- 衡量机构支持韩国学的意愿(财务、空间和人力资源,适当的间接费用比例)。<br>- 评估中央赠款管理部门的能力。</td></tr><tr><td rowspan="2">项目内容评估(40)</td><td>项目计划(30)</td><td>- 确保项目目标现实且定义明确。<br>- 验证计划是否符合当地条件。<br>- 审查项目团队结构的适当性。<br>- 评估预算计划是否反映当地价格水平。</td></tr></tbody></table>
2 / 3
--------- < 元数据 > ---------
{'di.text.he2te0': {'id': 'di.text.he2te0', 'type': 'text'}, 'di.table.ta29': {'id': 'di.table.ta29', 'type': 'table'}, 'di.text.fo3te0': {'id': 'di.text.fo3te0', 'type': 'text'}}
连接这些文档 到 Claude、VSCode 等,通过 MCP 获取实时答案。

