OpenAI推出新语音模型，增强语音识别准确度与语气控制能力

2025/03/24

OpenAI宣布推出新一代语音转文本与文本转语音模型，扩展API功能强化多语言语音代理开发能力。新模型在语音识别准确度、语音合成表现与定制化能力皆有提升，相较于旧版Whisper与其他竞争对手模型，在字词错误率（WER）方面表现良好。

新语音转文本模型gpt-4o-transcribe与gpt-4o-mini-transcribe在多语言语音识别上进行强化，通过强化学习与大规模语音数据集预训练，提升对不同语言、口音、语速变化与噪音环境的适应能力。根据FLEURS基准测试结果，gpt-4o-transcribe的WER明显低于Whisper-large-v2与Whisper-large-v3，特别是在英语、欧洲语系与部分亚洲语言的表现优于竞争对手，而在中文、阿拉伯语、印地语等语言的准确度仍有进步空间。

OpenAI同时推出新一代文本转语音模型gpt-4o-mini-tts，强化语音输出的可调整性，开发者可通过指令控制语气与风格，例如让语音代理以同理心客服或沉稳播报员的方式说话，提供语音应用更高的灵活度。OpenAI仍维持对语音合成技术的安全管控，目前仅提供人工默认语音，并通过监测确保语音输出符合既定标准。

这次OpenAI语音模型的提升主要来自于数个重要改进。首先，OpenAI采用了针对语音数据的特化预训练，使模型能够更精确地学习语音中的细微变化与语境关系。其次，通过高端的模型蒸馏技术，较小的模型gpt-4o-mini-transcribe与gpt-4o-mini-tts得以从更大型的模型学习语音转录与语音合成的能力，确保运算效率与准确率。此外，语音转文本模型采用强化学习机制，以进一步降低转录错误与语音错误识别的发生率，特别是在低资源语言与非标准语音的处理稳定有所提升。

OpenAI API的语音转文本与文本转语音功能目前已全面开放，并提供与Agents SDK的集成，简化语音应用开发流程。

上一篇 : 通用人形机器人研发生产商「松延动力」完成过亿元融资下一篇 : 马斯克宣布特斯拉 Optimus 人形机器人今年开启试生产

预约演示

OpenAI推出新语音模型，增强语音识别准确度与语气控制能力