Skip to main content
Atlas 是 Nomic 开发的平台,用于与小规模及互联网规模的非结构化数据集进行交互。它让任何人都能在浏览器中可视化、搜索和共享大规模数据集。
使用此集成需要通过 pip install -qU langchain-community 安装 langchain-community 本 notebook 展示了如何使用 AtlasDB 向量存储的相关功能。
pip install -qU  spacy
!python3 -m spacy download en_core_web_sm
pip install -qU  nomic

加载包

import time

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import AtlasDB
from langchain_text_splitters import SpacyTextSplitter
ATLAS_TEST_API_KEY = "x"

准备数据

loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = SpacyTextSplitter(separator="|")
texts = []
for doc in text_splitter.split_documents(documents):
    texts.extend(doc.page_content.split("|"))

texts = [e.strip() for e in texts]

使用 Nomic 的 Atlas 映射数据

db = AtlasDB.from_texts(
    texts=texts,
    name="test_index_" + str(time.time()),  # unique name for your vector store
    description="test_index",  # a description for your vector store
    api_key=ATLAS_TEST_API_KEY,
    index_kwargs={"build_topic_model": True},
)
db.project.wait_for_project_lock()
db.project
以下是本代码运行结果的地图,展示了国情咨文的文本内容。 atlas.nomic.ai/map/3e4de075-89ff-486a-845c-36c23f30bb67/d8ce2284-8edb-4050-8b9b-9bb543d7f647