Wikipedia 是一个由志愿者社区通过开放协作和使用名为 MediaWiki 的基于维基的编辑系统编写和维护的多语言免费在线百科全书。Wikipedia 是历史上规模最大、阅读量最多的参考著作。
此笔记本展示了如何将 wikipedia.org 的维基页面检索到 Document 格式中,以供下游使用。
集成详情
设置
要启用单个工具的自动跟踪,请设置您的 LangSmith API 密钥:安装
集成位于langchain-community 包中。我们还需要安装 wikipedia Python 包本身。
实例化
现在我们可以实例化我们的检索器:WikipediaRetriever 参数包括:
- 可选
lang:默认=“en”。用于在维基百科的特定语言部分进行搜索 - 可选
load_max_docs:默认=100。用于限制下载的文档数量。下载所有 100 个文档需要时间,因此实验时请使用较小的数字。目前硬限制为 300。 - 可选
load_all_available_meta:默认=False。默认情况下仅下载最重要的字段:Published(文档发布/最后更新日期)、title、Summary。如果为 True,则也会下载其他字段。
get_relevant_documents() 有一个参数 query:用于在维基百科中查找文档的自由文本
用法
API 参考
有关所有WikipediaRetriever 功能和配置的详细文档,请访问 API 参考。
通过 MCP 将这些文档连接到 Claude、VSCode 等 以获取实时答案。

