OpenAI 音频操作#
使用此操作在 OpenAI 中生成音频,或转写或翻译录音。有关 OpenAI 节点本身的更多信息,请参考 OpenAI。
生成音频#
使用此操作从文本提示创建音频。
输入这些参数:
- 连接凭证:创建或选择现有的 OpenAI 凭证。
- 资源:选择 Audio。
- 操作:选择 Generate Audio。
- 模型:选择您要用于生成音频的模型。有关更多信息,请参考 TTS | OpenAI。
- TTS-1:使用此选项优化速度。
- TTS-1-HD:使用此选项优化质量。
- 文本输入:输入要生成音频的文本。最大长度为 4096 个字符。
- 声音:选择生成音频时使用的声音。在 Text to speech guide | OpenAI 中听取声音预览。
选项#
- 响应格式:选择音频响应的格式。可从 MP3(默认)、OPUS、AAC、FLAC、WAV 和 PCM 中选择。
- 音频速度:输入生成音频的速度,值范围从
0.25
到4.0
。默认为1
。 - 将输出放入字段:默认为
data
。输入要将二进制文件数据放入的输出字段名称。
有关更多信息,请参考 Create speech | OpenAI 文档。
转写录音#
使用此操作将音频转写为文本。OpenAI API 将音频文件大小限制为 25 MB。OpenAI 默认将使用 whisper-1
模型。
输入这些参数:
- 连接凭证:创建或选择现有的 OpenAI 凭证。
- 资源:选择 Audio。
- 操作:选择 Transcribe a Recording。
- 输入数据字段名称:默认为
data
。输入包含音频文件的二进制属性名称,支持这些格式之一:.flac
、.mp3
、.mp4
、.mpeg
、.mpga
、.m4a
、.ogg
、.wav
或.webm
。
选项#
- 音频文件语言:以 ISO-639-1 格式输入输入音频的语言。使用此选项可提高准确性和降低延迟。
- 输出随机性 (Temperature):默认为
1.0
。调整响应的随机性。范围在0.0
(确定性)和1.0
(最大随机性)之间。我们建议更改此项或输出随机性 (Top P),但不要同时更改两者。从中等温度(约 0.7)开始,并根据您观察到的输出进行调整。如果响应过于重复或僵化,请增加温度。如果响应过于混乱或偏离主题,请降低温度。
有关更多信息,请参考 Create transcription | OpenAI 文档。
翻译录音#
使用此操作将音频翻译为英语。OpenAI API 将音频文件大小限制为 25 MB。OpenAI 默认将使用 whisper-1
模型。
输入这些参数:
- 连接凭证:创建或选择现有的 OpenAI 凭证。
- 资源:选择 Audio。
- 操作:选择 Translate a Recording。
- 输入数据字段名称:默认为
data
。输入包含音频文件的二进制属性名称,支持这些格式之一:.flac
、.mp3
、.mp4
、.mpeg
、.mpga
、.m4a
、.ogg
、.wav
或.webm
。
选项#
- 输出随机性 (Temperature):默认为
1.0
。调整响应的随机性。范围在0.0
(确定性)和1.0
(最大随机性)之间。我们建议更改此项或输出随机性 (Top P),但不要同时更改两者。从中等温度(约 0.7)开始,并根据您观察到的输出进行调整。如果响应过于重复或僵化,请增加温度。如果响应过于混乱或偏离主题,请降低温度。
有关更多信息,请参考 Create transcription | OpenAI 文档。
常见问题#
有关常见错误或问题和建议的解决步骤,请参考常见问题。
此页面是否
微信
🚀 与作者交流
关注公众号

n8n实战笔记
📚 教程 💡 案例 🔧 技巧
📚 教程 💡 案例 🔧 技巧
添加微信

1对1 专业指导
⚡ 快答 🎯 定制 🚀 支持
⚡ 快答 🎯 定制 🚀 支持