跳转至

n8n Docs

n8n 中文文档

OpenAI 音频操作#

使用此操作在 OpenAI 中生成音频，或转写或翻译录音。有关 OpenAI 节点本身的更多信息，请参考 OpenAI。

生成音频#

使用此操作从文本提示创建音频。

输入这些参数：

连接凭证：创建或选择现有的 OpenAI 凭证。
资源：选择 Audio。
操作：选择 Generate Audio。
模型：选择您要用于生成音频的模型。有关更多信息，请参考 TTS | OpenAI。
- TTS-1：使用此选项优化速度。
- TTS-1-HD：使用此选项优化质量。
文本输入：输入要生成音频的文本。最大长度为 4096 个字符。
声音：选择生成音频时使用的声音。在 Text to speech guide | OpenAI 中听取声音预览。

选项#

响应格式：选择音频响应的格式。可从 MP3（默认）、OPUS、AAC、FLAC、WAV 和 PCM 中选择。
音频速度：输入生成音频的速度，值范围从 0.25 到 4.0。默认为 1。
将输出放入字段：默认为 data。输入要将二进制文件数据放入的输出字段名称。

有关更多信息，请参考 Create speech | OpenAI 文档。

转写录音#

使用此操作将音频转写为文本。OpenAI API 将音频文件大小限制为 25 MB。OpenAI 默认将使用 whisper-1 模型。

输入这些参数：

连接凭证：创建或选择现有的 OpenAI 凭证。
资源：选择 Audio。
操作：选择 Transcribe a Recording。
输入数据字段名称：默认为 data。输入包含音频文件的二进制属性名称，支持这些格式之一：.flac、.mp3、.mp4、.mpeg、.mpga、.m4a、.ogg、.wav 或 .webm。

选项#

音频文件语言：以 ISO-639-1 格式输入输入音频的语言。使用此选项可提高准确性和降低延迟。
输出随机性 (Temperature)：默认为 1.0。调整响应的随机性。范围在 0.0（确定性）和 1.0（最大随机性）之间。我们建议更改此项或输出随机性 (Top P)，但不要同时更改两者。从中等温度（约 0.7）开始，并根据您观察到的输出进行调整。如果响应过于重复或僵化，请增加温度。如果响应过于混乱或偏离主题，请降低温度。

有关更多信息，请参考 Create transcription | OpenAI 文档。

翻译录音#

使用此操作将音频翻译为英语。OpenAI API 将音频文件大小限制为 25 MB。OpenAI 默认将使用 whisper-1 模型。

输入这些参数：

连接凭证：创建或选择现有的 OpenAI 凭证。
资源：选择 Audio。
操作：选择 Translate a Recording。
输入数据字段名称：默认为 data。输入包含音频文件的二进制属性名称，支持这些格式之一：.flac、.mp3、.mp4、.mpeg、.mpga、.m4a、.ogg、.wav 或 .webm。

选项#

输出随机性 (Temperature)：默认为 1.0。调整响应的随机性。范围在 0.0（确定性）和 1.0（最大随机性）之间。我们建议更改此项或输出随机性 (Top P)，但不要同时更改两者。从中等温度（约 0.7）开始，并根据您观察到的输出进行调整。如果响应过于重复或僵化，请增加温度。如果响应过于混乱或偏离主题，请降低温度。

有关更多信息，请参考 Create transcription | OpenAI 文档。

常见问题#

有关常见错误或问题和建议的解决步骤，请参考常见问题。

此页面是否

💬 微信

🚀 与作者交流

关注公众号

n8n实战笔记公众号

n8n实战笔记
📚 教程 💡 案例 🔧 技巧

添加微信

添加作者微信

1对1 专业指导
⚡ 快答 🎯 定制 🚀 支持

添加后请直说来意，看到会回复。谢谢