arXiv 是一个开放获取的档案库,收录了物理学、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程与系统科学以及经济学领域的 200 万篇学术论文。本笔记本展示了如何从 Arxiv.org 检索科学文章,并将其转换为下游使用的 Document 格式。 有关所有
ArxivRetriever 功能和配置的详细文档,请前往 API 参考。
集成详情
设置
如果您想从单个查询中获得自动跟踪,也可以取消注释以下内容来设置您的 LangSmith API 密钥:安装
此检索器位于langchain-community 包中。我们还需要 arxiv 依赖项:
实例化
ArxivRetriever 参数包括:
- 可选的
load_max_docs:默认=100。用于限制下载的文档数量。下载所有 100 篇文档需要时间,因此在实验时请使用较小的数字。目前硬性限制为 300。 - 可选的
load_all_available_meta:默认=False。默认情况下,仅下载最重要的字段:Published(文档发布/最后更新的日期)、Title、Authors、Summary。如果为 True,则也会下载其他字段。 get_full_documents:布尔值,默认为 False。决定是否获取文档的全文。
用法
ArxivRetriever 支持通过文章标识符进行检索:
ArxivRetriever 也支持基于自然语言文本的检索:
API 参考
有关所有ArxivRetriever 功能和配置的详细文档,请前往 API 参考。
将这些文档连接到 Claude、VSCode 等,通过 MCP 获取实时答案。

