SitemapLoader 类将站点地图加载为 Document 对象。
设置
首先,我们需要安装langchain 包:
npm
npm install @langchain/core @langchain/community
.xml 路径,否则默认的 /sitemap.xml 将被附加到 URL 后。
import { SitemapLoader } from "@langchain/community/document_loaders/web/sitemap";
const loader = new SitemapLoader("https://www.langchain.com/");
const docs = await loader.load();
console.log(docs.length);
/**
26
*/
console.log(docs[0]);
/**
Document {
pageContent: '\n' +
' \n' +
'\n' +
' \n' +
' \n' +
' 博客文章 2022年4月8日 随着互联网持续呈指数级发展,与之相关的行业工作也在增加,尤其是与网页设计和开发相关的岗位。据预测,到2029年,这两个领域的工作前景将增长8%——远高于平均水平。无论您是寻求受薪工作还是希望以自由职业者身份工作,网页设计职业都能提供多种就业安排、有竞争力的薪资以及运用技术和创意技能的机会。网页设计职业涉及哪些内容?网站设计职业可能涉及多种网站类型的设计、创建和编码。其他任务通常包括与客户联络并讨论网站规格、整合反馈、进行图形设计和图像编辑,以及启用音频和视频等多媒体功能。网页设计师需要具备一系列创意和技术技能,可能参与多个行业的工作,包括软件公司、IT咨询公司、网页设计公司、企业组织等。与网页开发人员相比,网页设计师往往扮演更具创意的角色,负责网站的整体愿景和设计,并确定如何最好地整合必要的功能。然而,这两个角色之间可能存在显著的重叠。全栈、后端和前端网页开发 美国劳工统计局(BLS)的《职业展望手册》倾向于将网页开发人员和数字设计师归为一类。然而,他们分别定义了这两个角色,指出网页开发人员负责创建和维护网站,并负责包括性能和容量在内的技术方面。另一方面,网页或数字设计师负责网站和界面的外观和功能。他们开发、创建和测试布局、功能和导航,以确保可用性。网页开发人员可以专注于后端、前端或全栈开发,并通常使用一系列编程语言、库和框架来实现。网页设计师可能与前端工程师更紧密地合作,以建立网站的用户端功能和外观。2022年网页设计师需求量大吗?在我们日益数字化的环境中,对网站的需求持续存在——因此对网页设计师和开发人员的需求也持续存在。截至2020年1月,全球已有174亿个网站,对网页开发人员的需求预计只会增加。具有丰富编码经验的网页设计师通常需求更高,并且通常可以获得更高的薪水。与所有工作一样,可能会有一系列机会,其中一些薪水更高。但某些技能组合是网页设计的基础,其中大部分是2022年成为网页设计师的关键。const removeHiddenBreakpointLayers = function ie(e){function t(){for(let{hash:r,mediaQuery:i}of e){if(!i)continue;if(window.matchMedia(i).matches)return r}return e[0]?.hash}let o=t();if(o)for(let r of document.querySelectorAll(".hidden-"+o))r.parentNode?.removeChild(r);for(let r of document.querySelectorAll(".ssr-variant")){for(;r.firstChild;)r.parentNode?.insertBefore(r.firstChild,r);r.parentNode?.removeChild(r)}for(let r of document.querySelectorAll("[data-framer-original-sizes]")){let i=r.getAttribute("data-framer-original-sizes");i===""?r.removeAttribute("sizes"):r.setAttribute("sizes",i),r.removeAttribute("data-framer-original-sizes")}};removeHiddenBreakpointLayers([{"hash":"1ksv3g6"}])\n' +
'\n' +
' \n' +
' \n' +
' \n' +
' \n' +
' \n' +
'\n' +
'\n',
metadata: {
changefreq: '',
lastmod: '',
priority: '',
source: 'https://www.langchain.com/blog-detail/starting-a-career-in-design'
}
}
*/
parseSitemap 方法:
import { SitemapLoader } from "@langchain/community/document_loaders/web/sitemap";
const loader = new SitemapLoader("https://www.langchain.com/");
const sitemap = await loader.parseSitemap();
console.log(sitemap);
/**
[
{
loc: 'https://www.langchain.com/blog-detail/starting-a-career-in-design',
changefreq: '',
lastmod: '',
priority: ''
},
{
loc: 'https://www.langchain.com/blog-detail/building-a-navigation-component',
changefreq: '',
lastmod: '',
priority: ''
},
{
loc: 'https://www.langchain.com/blog-detail/guide-to-creating-a-website',
changefreq: '',
lastmod: '',
priority: ''
},
{
loc: 'https://www.langchain.com/page-1/terms-and-conditions',
changefreq: '',
lastmod: '',
priority: ''
},
...还有 42 个项目
]
*/
通过 MCP 将这些文档连接到 Claude、VSCode 等,以获取实时答案。

