Soniox

开始在 LangChain 中使用 Soniox 音频转录加载器。

设置

安装包：

npm2yarn

npm install @soniox/langchain

凭证

从 Soniox 控制台获取您的 Soniox API 密钥，并将其设置为环境变量：

export SONIOX_API_KEY=your_api_key

用法

基本转录

示例：如何使用 SonioxAudioTranscriptLoader 转录音频文件并使用 LLM 生成摘要。

import { SonioxAudioTranscriptLoader } from "@soniox/langchain";
import { ChatOpenAI } from "@langchain/openai";
import { ChatPromptTemplate } from "@langchain/core/prompts";
import { StringOutputParser } from "@langchain/core/output_parsers";

const audioFileUrl = "https://soniox.com/media/examples/coffee_shop.mp3";
const loader = new SonioxAudioTranscriptLoader(
  {
    audio: audioFileUrl,
  },
  {
    language_hints: ["en"],
    // 您可以在此处找到任何其他转录参数
    // https://soniox.com/docs/stt/api-reference/transcriptions/create_transcription
  }
);

console.log(`正在转录 ${audioFileUrl}...`);
const docs = await loader.load();

const transcriptText = docs[0].pageContent;
console.log(`转录文本: ${transcriptText}`);

// 创建一个链来总结转录内容
const prompt = ChatPromptTemplate.fromTemplate(
  "请为以下语音内容撰写一份简洁的摘要：\n\n{transcript}"
);

const chain = prompt
  .pipe(new ChatOpenAI({ model: "gpt-5-mini" }))
  .pipe(new StringOutputParser());

const summary = await chain.invoke({ transcript: transcriptText });
console.log(summary);

您也可以从二进制数据转录音频：

// 获取文件
const response = await fetch("https://github.com/soniox/soniox_examples/raw/refs/heads/master/speech_to_text/assets/coffee_shop.mp3");
const audioBuffer = await response.bytes(); // Uint8Array

const loader = new SonioxAudioTranscriptLoader({
    audio: audioBuffer,
})

const docs = await loader.load();
console.log(docs[0].pageContent); // 转录的文本

翻译

从任何检测到的语言翻译到目标语言：

const loader = new SonioxAudioTranscriptLoader(
  {
    audio: audioFileUrl,
  },
  {
    translation: {
      type: "one_way",
      target_language: "fr",
    },
    language_hints: ["en"],
  }
);

const docs = await loader.load();

let originalText = "";
let translatedText = "";

for (const token of docs[0].metadata.tokens) {
  if (token.translation_status === "translation") {
    translatedText += token.text;
  } else {
    originalText += token.text;
  }
}

console.log(originalText);
console.log(translatedText);

您也可以使用 two_way 翻译类型同时转录并在两种语言之间进行翻译。了解更多关于 Soniox 翻译的信息。

语言提示

Soniox 自动检测并转录 60 多种语言 的语音。当您知道音频中可能出现哪些语言时，提供 language_hints 可以通过将识别偏向这些语言来提高准确性。语言提示不会限制识别——它们只是将模型偏向指定的语言，同时仍然允许检测其他语言（如果存在）。

const loader = new SonioxAudioTranscriptLoader(
  {
    audio: audioFileUrl,
  },
  {
    language_hints: ["en", "es"],
  }
);

const docs = await loader.load();

更多详情，请参阅 Soniox 语言提示文档。

说话人分离

启用说话人识别以区分不同的说话人：

const loader = new SonioxAudioTranscriptLoader(
  {
    audio: audioFileUrl,
  },
  {
    enable_speaker_diarization: true,
  }
);

const docs = await loader.load();

// 在元数据中访问说话人信息
let currentSpeaker = null;
let output = "";
for (const token of docs[0].metadata.tokens) {
  if (currentSpeaker !== token.speaker) {
    currentSpeaker = token.speaker;
    output += `\n说话人 ${currentSpeaker}: ${token.text.trimStart()}`;
  } else {
    output += token.text;
  }
}
console.log(output);

// 分析对话
const prompt = ChatPromptTemplate.fromTemplate(
  `分析以下说话人之间的对话。
识别每位说话人的意图。

对话内容：
{conversation}`
);

const chain = prompt
  .pipe(new ChatOpenAI({ model: "gpt-5-mini" }))
  .pipe(new StringOutputParser());

const analysis = await chain.invoke({ conversation: output });
console.log(analysis);

语言识别

启用自动语言检测和识别：

const loader = new SonioxAudioTranscriptLoader(
  {
    audio: audioFileUrl,
  },
  {
    enable_language_identification: true,
  }
);

提供上下文以提高准确性

提供特定领域的上下文以提高转录准确性：

const loader = new SonioxAudioTranscriptLoader(
  {
    audio: audioBuffer,
  },
  {
    context: {
      general: [
        { key: "industry", value: "healthcare" },
        { key: "meeting_type", value: "consultation" }
      ],
      terms: ["hypertension", "cardiology", "metformin"],
      translation_terms: [
        { source: "blood pressure", target: "presión arterial" },
        { source: "medication", target: "medicamento" }
      ]
    }
  }
);

更多详情，请参阅 Soniox 上下文文档。

API 参考

构造函数参数

SonioxLoaderParams（必需）

参数	类型	必需	描述
`audio`	`Uint8Array \| string`	是	音频文件，作为缓冲区或 URL
`audioFormat`	`SonioxAudioFormat`	否	音频文件格式
`apiKey`	`string`	否	Soniox API 密钥（默认使用 `SONIOX_API_KEY` 环境变量）
`apiBaseUrl`	`string`	否	API 基础 URL（默认为 `https://api.soniox.com/v1`）
`pollingIntervalMs`	`number`	否	轮询间隔，单位毫秒（最小值：1000，默认值：1000）
`pollingTimeoutMs`	`number`	否	轮询超时，单位毫秒（默认值：180000）

SonioxLoaderOptions（可选）

参数	类型	描述
`model`	`SonioxTranscriptionModelId`	使用的模型（默认：`"stt-async-v4"`）
`translation`	`object`	翻译配置
`language_hints`	`string[]`	转录的语言提示
`language_hints_strict`	`boolean`	强制执行严格语言提示
`enable_speaker_diarization`	`boolean`	启用说话人识别
`enable_language_identification`	`boolean`	启用语言检测
`context`	`object`	用于提高准确性的上下文

浏览文档以获取支持的完整选项列表。

支持的音频格式

aac - 高级音频编码
aiff - 音频交换文件格式
amr - 自适应多速率
asf - 高级系统格式
flac - 自由无损音频编解码器
mp3 - MPEG 音频层 III
ogg - Ogg Vorbis
wav - 波形音频文件格式
webm - WebM 音频

返回值

load() 方法返回一个包含单个 Document 对象的数组：

type Document {
  pageContent: string, // 转录的文本
  metadata: SonioxTranscriptResponse // 包含元数据的完整转录
}

元数据包括转录文本、说话人信息（如果启用了分离）、语言信息（如果启用了识别）、翻译数据（如果启用了翻译）和时间信息。

type SonioxTranscriptResponse = {
  id: string;
  text?: string | null;
  tokens?: SonioxTranscriptToken[] | null;
}

Token 类型：

type SonioxTranscriptToken = {
  text: string;
  start_ms?: number | null;
  end_ms?: number | null;
  confidence?: number | null;
  speaker?: number | string | null;
  language?: string | null;
  translation_status?: string | null;
};

您可以在 Soniox REST API 参考中了解更多关于 SonioxTranscriptResponse 类型的信息。

Popular Providers

General integrations

RAG integrations

设置

凭证

用法

基本转录

翻译

语言提示

说话人分离

语言识别

提供上下文以提高准确性

API 参考

构造函数参数

SonioxLoaderParams（必需）

SonioxLoaderOptions（可选）

支持的音频格式

返回值

相关资源

​设置

​凭证

​用法

​基本转录

​翻译

​语言提示

​说话人分离

​语言识别

​提供上下文以提高准确性

​API 参考

​构造函数参数

​SonioxLoaderParams（必需）

​SonioxLoaderOptions（可选）

​支持的音频格式

​返回值

​相关资源

设置

凭证

用法

基本转录

翻译

语言提示

说话人分离

语言识别

提供上下文以提高准确性

API 参考

构造函数参数

SonioxLoaderParams（必需）

SonioxLoaderOptions（可选）

支持的音频格式

返回值

相关资源