安全护栏

安全护栏通过在智能体执行的关键点验证和过滤内容，帮助您构建安全、合规的人工智能应用程序。它们可以检测敏感信息、执行内容策略、验证输出，并在问题发生前防止不安全行为。常见用例包括：

防止个人身份信息泄露
检测和阻止提示注入攻击
阻止不当或有害内容
执行业务规则和合规要求
验证输出质量和准确性

您可以使用中间件来实现安全护栏，以在战略点拦截执行——在智能体开始之前、完成之后，或在模型和工具调用周围。

安全护栏可以使用两种互补的方法来实现：

确定性安全护栏

使用基于规则的逻辑，如正则表达式模式、关键词匹配或显式检查。快速、可预测且成本效益高，但可能错过细微的违规行为。

基于模型的安全护栏

使用 LLM 或分类器通过语义理解评估内容。可以捕捉规则遗漏的细微问题，但速度较慢且成本更高。

LangChain 提供了内置的安全护栏（例如，PII 检测、人机回圈）以及一个灵活的中间件系统，用于使用任一方法构建自定义安全护栏。

内置安全护栏

PII 检测

LangChain 提供了用于检测和处理对话中个人身份信息 (PII) 的内置中间件。此中间件可以检测常见的 PII 类型，如电子邮件、信用卡、IP 地址等。 PII 检测中间件对于以下情况非常有用：具有合规要求的医疗保健和金融应用程序、需要清理日志的客户服务智能体，以及任何处理敏感用户数据的应用程序。 PII 中间件支持多种处理检测到的 PII 的策略：

策略	描述	示例
`redact`	替换为 `[REDACTED_{PII_TYPE}]`	`[REDACTED_EMAIL]`
`mask`	部分遮蔽（例如，最后 4 位数字）	`**--**-1234`
`hash`	替换为确定性哈希	`a8f5f167...`
`block`	检测到时引发异常	抛出错误

import { createAgent, piiRedactionMiddleware } from "langchain";

const agent = createAgent({
  model: "gpt-4.1",
  tools: [customerServiceTool, emailTool],
  middleware: [
    // 在发送到模型之前，对用户输入中的电子邮件进行编辑
    piiRedactionMiddleware({
      piiType: "email",
      strategy: "redact",
      applyToInput: true,
    }),
    // 遮蔽用户输入中的信用卡
    piiRedactionMiddleware({
      piiType: "credit_card",
      strategy: "mask",
      applyToInput: true,
    }),
    // 阻止 API 密钥 - 检测到时引发错误
    piiRedactionMiddleware({
      piiType: "api_key",
      detector: /sk-[a-zA-Z0-9]{32}/,
      strategy: "block",
      applyToInput: true,
    }),
  ],
});

// 当用户提供 PII 时，将根据策略进行处理
const result = await agent.invoke({
  messages: [{
    role: "user",
    content: "我的电子邮件是 john.doe@example.com，卡号是 5105-1051-0510-5100"
  }]
});

内置 PII 类型和配置

内置 PII 类型：

email - 电子邮件地址
credit_card - 信用卡号（Luhn 验证）
ip - IP 地址
mac_address - MAC 地址
url - URL

配置选项：

参数	描述	默认值
`piiType`	要检测的 PII 类型（内置或自定义）	必需
`strategy`	如何处理检测到的 PII（`"block"`、`"redact"`、`"mask"`、`"hash"`）	`"redact"`
`detector`	自定义检测器正则表达式模式	`undefined`（使用内置）
`applyToInput`	在模型调用前检查用户消息	`true`
`applyToOutput`	在模型调用后检查 AI 消息	`false`
`applyToToolResults`	在执行后检查工具结果消息	`false`

有关 PII 检测功能的完整详细信息，请参阅中间件文档。

人机回圈

LangChain 提供了内置中间件，用于在执行敏感操作前要求人工批准。这是针对高风险决策最有效的安全护栏之一。人机回圈中间件对于以下情况非常有用：金融交易和转账、删除或修改生产数据、向外部方发送通信，以及任何具有重大业务影响的操作。

import { createAgent, humanInTheLoopMiddleware } from "langchain";
import { MemorySaver, Command } from "@langchain/langgraph";

const agent = createAgent({
  model: "gpt-4.1",
  tools: [searchTool, sendEmailTool, deleteDatabaseTool],
  middleware: [
    humanInTheLoopMiddleware({
      interruptOn: {
        // 要求对敏感操作进行批准
        send_email: { allowAccept: true, allowEdit: true, allowRespond: true },
        delete_database: { allowAccept: true, allowEdit: true, allowRespond: true },
        // 自动批准安全操作
        search: false,
      }
    }),
  ],
  checkpointer: new MemorySaver(),
});

// 人机回圈需要一个线程 ID 用于持久化
const config = { configurable: { thread_id: "some_id" } };

// 智能体将在执行敏感工具前暂停并等待批准
let result = await agent.invoke(
  { messages: [{ role: "user", content: "向团队发送电子邮件" }] },
  config
);

result = await agent.invoke(
  new Command({ resume: { decisions: [{ type: "approve" }] } }),
  config  // 相同的线程 ID 以恢复暂停的对话
);

有关实现审批工作流的完整详细信息，请参阅人机回圈文档。

自定义安全护栏

对于更复杂的安全护栏，您可以创建在智能体执行之前或之后运行的自定义中间件。这使您可以完全控制验证逻辑、内容过滤和安全检查。

智能体前安全护栏

使用“智能体前”钩子在每次调用开始时验证请求。这对于会话级检查非常有用，例如身份验证、速率限制或在任何处理开始前阻止不当请求。

import { createMiddleware, AIMessage } from "langchain";

const contentFilterMiddleware = (bannedKeywords: string[]) => {
  const keywords = bannedKeywords.map(kw => kw.toLowerCase());

  return createMiddleware({
    name: "ContentFilterMiddleware",
    beforeAgent: {
      hook: (state) => {
        // 获取第一条用户消息
        if (!state.messages || state.messages.length === 0) {
          return;
        }

        const firstMessage = state.messages[0];
        if (firstMessage._getType() !== "human") {
          return;
        }

        const content = firstMessage.content.toString().toLowerCase();

        // 检查禁用关键词
        for (const keyword of keywords) {
          if (content.includes(keyword)) {
            // 在任何处理前阻止执行
            return {
              messages: [
                new AIMessage(
                  "我无法处理包含不当内容的请求。请重新表述您的请求。"
                )
              ],
              jumpTo: "end",
            };
          }
        }

        return;
      },
      canJumpTo: ['end']
    }
  });
};

// 使用自定义安全护栏
import { createAgent } from "langchain";

const agent = createAgent({
  model: "gpt-4.1",
  tools: [searchTool, calculatorTool],
  middleware: [
    contentFilterMiddleware(["hack", "exploit", "malware"]),
  ],
});

// 此请求将在任何处理前被阻止
const result = await agent.invoke({
  messages: [{ role: "user", content: "我如何入侵数据库？" }]
});

智能体后安全护栏

使用“智能体后”钩子在返回给用户之前验证最终输出。这对于基于模型的安全检查、质量验证或对完整智能体响应的最终合规扫描非常有用。

import { createMiddleware, AIMessage, initChatModel } from "langchain";

const safetyGuardrailMiddleware = () => {
  const safetyModel = initChatModel("gpt-4.1-mini");

  return createMiddleware({
    name: "SafetyGuardrailMiddleware",
    afterAgent: {
      hook: async (state) => {
        // 获取最终的 AI 响应
        if (!state.messages || state.messages.length === 0) {
          return;
        }

        const lastMessage = state.messages[state.messages.length - 1];
        if (lastMessage._getType() !== "ai") {
          return;
        }

        // 使用模型评估安全性
        const safetyPrompt = `评估此响应是否安全且适当。
        仅回复 'SAFE' 或 'UNSAFE'。

        响应：${lastMessage.content.toString()}`;

        const result = await safetyModel.invoke([
          { role: "user", content: safetyPrompt }
        ]);

        if (result.content.toString().includes("UNSAFE")) {
          return {
            messages: [
              new AIMessage(
                "我无法提供该响应。请重新表述您的请求。"
              )
            ],
            jumpTo: "end",
          };
        }

        return;
      },
      canJumpTo: ['end']
    }
  });
};

// 使用安全护栏
import { createAgent } from "langchain";

const agent = createAgent({
  model: "gpt-4.1",
  tools: [searchTool, calculatorTool],
  middleware: [safetyGuardrailMiddleware()],
});

const result = await agent.invoke({
  messages: [{ role: "user", content: "我如何制造爆炸物？" }]
});

组合多个安全护栏

您可以通过将它们添加到中间件数组中来堆叠多个安全护栏。它们按顺序执行，允许您构建分层保护：

import { createAgent, piiRedactionMiddleware, humanInTheLoopMiddleware } from "langchain";

const agent = createAgent({
  model: "gpt-4.1",
  tools: [searchTool, sendEmailTool],
  middleware: [
    // 第 1 层：确定性输入过滤（智能体前）
    contentFilterMiddleware(["hack", "exploit"]),

    // 第 2 层：PII 保护（模型前后）
    piiRedactionMiddleware({
      piiType: "email",
      strategy: "redact",
      applyToInput: true,
    }),
    piiRedactionMiddleware({
      piiType: "email",
      strategy: "redact",
      applyToOutput: true,
    }),

    // 第 3 层：敏感工具的人工批准
    humanInTheLoopMiddleware({
      interruptOn: {
        send_email: { allowAccept: true, allowEdit: true, allowRespond: true },
      }
    }),

    // 第 4 层：基于模型的安全检查（智能体后）
    safetyGuardrailMiddleware(),
  ],
});

其他资源

中间件文档 - 自定义中间件完整指南
中间件 API 参考 - 自定义中间件完整指南
人机回圈 - 为敏感操作添加人工审查
测试智能体 - 测试安全机制的策略

在 GitHub 上编辑此页面或提交问题。

通过 MCP 将这些文档连接到 Claude、VSCode 等，以获取实时答案。

Get started

Core components

Middleware

Frontend

Advanced usage

Agent development

Deploy with LangSmith

确定性安全护栏

基于模型的安全护栏

内置安全护栏

PII 检测

人机回圈

自定义安全护栏

智能体前安全护栏

智能体后安全护栏

组合多个安全护栏

其他资源

Get started

Core components

Middleware

Frontend

Advanced usage

Agent development

Deploy with LangSmith

确定性安全护栏

基于模型的安全护栏

​内置安全护栏

​PII 检测

​人机回圈

​自定义安全护栏

​智能体前安全护栏

​智能体后安全护栏

​组合多个安全护栏

​其他资源

内置安全护栏

PII 检测

人机回圈

自定义安全护栏

智能体前安全护栏

智能体后安全护栏

组合多个安全护栏

其他资源