这将帮助您开始使用 LangChain 和 OpenAI 嵌入模型。有关 OpenAIEmbeddings 功能和配置选项的详细文档,请参阅 API 参考 。
集成详情
准备工作
要访问 OpenAI 嵌入模型,您需要创建一个 OpenAI 账户,获取 API 密钥,并安装 langchain-openai 集成包。
认证信息
前往 platform.openai.com 注册 OpenAI 并生成 API 密钥。完成此操作后,设置 OPENAI_API_KEY 环境变量:
import getpass
import os
if not os . getenv ( "OPENAI_API_KEY" ):
os . environ [ " OPENAI_API_KEY " ] = getpass . getpass ( "输入您的 OpenAI API 密钥:" )
要启用模型调用的自动追踪功能,请设置您的 LangSmith API 密钥:
os . environ [ " LANGSMITH_TRACING " ] = "true"
os . environ [ " LANGSMITH_API_KEY " ] = getpass . getpass ( "输入您的 LangSmith API 密钥:" )
LangChain OpenAI 集成位于 langchain-openai 包中:
pip install - qU langchain - openai
实例化
现在我们可以实例化模型对象并生成聊天补全结果:
from langchain_openai import OpenAIEmbeddings
embeddings = OpenAIEmbeddings (
model = "text-embedding-3-large" ,
# 对于 `text-embedding-3` 系列的
# 模型,您可以指定希望返回的
# 嵌入向量的维度大小。
# dimensions=1024
)
Azure OpenAI v1 API 支持 自 langchain-openai>=1.0.1 起,OpenAIEmbeddings 可直接配合新的 v1 API 用于 Azure OpenAI 端点,包括对 Microsoft Entra ID 身份验证的支持。详情请参阅下方的 与 Azure OpenAI 配合使用 章节。
索引与检索
嵌入模型通常用于检索增强生成(RAG)流程中,既作为数据索引的一部分,也用于后续的检索操作。如需更详细的说明,请参阅我们的 RAG 教程 。
下面介绍如何使用上述初始化的 embeddings 对象来索引和检索数据。在本示例中,我们将在 InMemoryVectorStore 中索引和检索一个示例文档。
# 使用示例文本创建向量存储
from langchain_core . vectorstores import InMemoryVectorStore
text = "LangChain is the framework for building context-aware reasoning applications"
vectorstore = InMemoryVectorStore . from_texts (
[ text ],
embedding = embeddings ,
)
# 将向量存储用作检索器
retriever = vectorstore . as_retriever ()
# 检索最相似的文本
retrieved_documents = retriever . invoke ( "What is LangChain?" )
# 显示检索到的文档内容
retrieved_documents [ 0 ]. page_content
'LangChain is the framework for building context-aware reasoning applications'
直接使用
在底层实现中,向量存储和检索器实现分别调用 embeddings.embed_documents(...) 和 embeddings.embed_query(...),为 from_texts 和检索 invoke 操作中使用的文本创建嵌入向量。
您可以直接调用这些方法,以便在自己的用例中获取嵌入向量。
嵌入单个文本
您可以使用 embed_query 嵌入单个文本或文档:
single_vector = embeddings . embed_query ( text )
print ( str ( single_vector )[: 100 ]) # 显示向量的前 100 个字符
[-0.019276829436421394, 0.0037708976306021214, -0.03294256329536438, 0.0037671267054975033, 0.008175
嵌入多个文本
您可以使用 embed_documents 嵌入多个文本:
text2 = (
"LangGraph is a library for building stateful, multi-actor applications with LLMs"
)
two_vectors = embeddings . embed_documents ([ text , text2 ])
for vector in two_vectors :
print ( str ( vector )[: 100 ]) # 显示向量的前 100 个字符
[-0.019260549917817116, 0.0037612367887049913, -0.03291035071015358, 0.003757466096431017, 0.0082049
[-0.010181212797760963, 0.023419594392180443, -0.04215526953339577, -0.001532090245746076, -0.023573
与 Azure OpenAI 配合使用
Azure OpenAI v1 API 支持 自 langchain-openai>=1.0.1 起,OpenAIEmbeddings 可直接配合新的 v1 API 用于 Azure OpenAI 端点。这提供了一种统一的方式来使用 OpenAI 嵌入模型,无论其托管在 OpenAI 还是 Azure 上。 对于传统的 Azure 专用实现,请继续使用 AzureOpenAIEmbeddings 。
使用 API 密钥调用 Azure OpenAI v1 API
要在 Azure OpenAI 中使用 OpenAIEmbeddings,请将 base_url 设置为您的 Azure 端点,并在末尾追加 /openai/v1/:
from langchain_openai import OpenAIEmbeddings
embeddings = OpenAIEmbeddings (
model = "text-embedding-3-large" , # 您的 Azure 部署名称
base_url = "https://{your-resource-name}.openai.azure.com/openai/v1/" ,
api_key = "your-azure-api-key"
)
# 正常使用
vector = embeddings . embed_query ( "Hello world" )
使用 Microsoft Entra ID 调用 Azure OpenAI
v1 API 增加了对 Microsoft Entra ID 身份验证的原生支持,并具备自动令牌刷新功能。将令牌提供程序可调用对象传递给 api_key 参数:
from azure . identity import DefaultAzureCredential , get_bearer_token_provider
from langchain_openai import OpenAIEmbeddings
# 创建处理自动刷新的令牌提供程序
token_provider = get_bearer_token_provider (
DefaultAzureCredential (),
"https://cognitiveservices.azure.com/.default"
)
embeddings = OpenAIEmbeddings (
model = "text-embedding-3-large" , # 您的 Azure 部署名称
base_url = "https://{your-resource-name}.openai.azure.com/openai/v1/" ,
api_key = token_provider # 处理令牌刷新的可调用对象
)
# 正常使用
vectors = embeddings . embed_documents ([ "Hello" , "World" ])
安装要求 要使用 Microsoft Entra ID 身份验证,请安装 Azure Identity 库: pip install azure-identity
在使用异步函数时,您也可以将令牌提供程序可调用对象传递给 api_key 参数。您必须从 azure.identity.aio 导入 DefaultAzureCredential:
from azure . identity . aio import DefaultAzureCredential
from langchain_openai import OpenAIEmbeddings
credential = DefaultAzureCredential ()
embeddings_async = OpenAIEmbeddings (
model = "text-embedding-3-large" ,
api_key = credential
)
# 使用异步可调用对象时需使用异步方法
vectors = await embeddings_async . aembed_documents ([ "Hello" , "World" ])
当为 API 密钥使用异步可调用对象时,必须使用异步方法(aembed_query、aembed_documents)。同步方法将引发错误。
API 参考
有关 OpenAIEmbeddings 功能和配置选项的详细文档,请参阅 API 参考 。
连接这些文档 至 Claude、VSCode 等,通过 MCP 获取实时答案。