设置
安装软件包:npm2yarn
凭证
从 Soniox 控制台 获取您的 Soniox API 密钥,并将其设置为环境变量:用法
基本转录
示例:如何使用SonioxAudioTranscriptLoader 转录音频文件并使用 LLM 生成摘要。
翻译
将任何检测到的语言翻译为目标语言:two_way 翻译类型同时转录和翻译两种语言。了解有关 Soniox 翻译 的更多信息。
语言提示
Soniox 自动检测并转录 60 多种语言 的语音。当您知道音频中可能出现哪些语言时,提供language_hints 可以通过偏向这些语言来提高识别准确性。
语言提示不会限制识别——它们只会偏向指定的语言,同时仍然允许检测其他语言(如果存在)。
说话人区分
启用说话人识别以区分不同的说话人:语言识别
启用自动语言检测和识别:提高准确性的上下文
提供特定领域的上下文以提高转录准确性:API 参考
构造函数参数
SonioxLoaderParams (必需)
| 参数 | 类型 | 必需 | 描述 |
|---|---|---|---|
audio | Uint8Array | string | 是 | 音频文件,作为缓冲区或 URL |
audioFormat | SonioxAudioFormat | 否 | 音频文件格式 |
apiKey | string | 否 | Soniox API 密钥(默认为 SONIOX_API_KEY 环境变量) |
apiBaseUrl | string | 否 | API 基础 URL(默认为 https://api.soniox.com/v1) |
pollingIntervalMs | number | 否 | 轮询间隔(毫秒)(最小值:1000,默认值:1000) |
pollingTimeoutMs | number | 否 | 轮询超时(毫秒)(默认值:180000) |
SonioxLoaderOptions (可选)
| 参数 | 类型 | 描述 |
|---|---|---|
model | SonioxTranscriptionModelId | 要使用的模型(默认值:"stt-async-v4") |
translation | object | 翻译配置 |
language_hints | string[] | 转录的语言提示 |
language_hints_strict | boolean | 强制执行严格语言提示 |
enable_speaker_diarization | boolean | 启用说话人识别 |
enable_language_identification | boolean | 启用语言检测 |
context | object | 用于提高准确性的上下文 |
支持的音频格式
aac- 高级音频编码aiff- 音频交换文件格式amr- 自适应多速率asf- 高级系统格式flac- 自由无损音频编解码器mp3- MPEG 音频第 III 层ogg- Ogg Vorbiswav- 波形音频文件格式webm- WebM 音频
返回值
load() 方法返回一个包含单个 Document 对象的数组:
SonioxTranscriptResponse 类型的更多信息。

