OpenAI宣布推出语音转文本和文本转语音模型-卓世科技-中国行业大模型先锋
微信扫码了解我们
服务热线
13321112233

预约演示

姓名
* 电话
邮箱
地址
内容

OpenAI推出新语音模型,增强语音识别准确度与语气控制能力

2025/03/24

OpenAI宣布推出新一代语音转文本与文本转语音模型,扩展API功能强化多语言语音代理开发能力。新模型在语音识别准确度、语音合成表现与定制化能力皆有提升,相较于旧版Whisper与其他竞争对手模型,在字词错误率(WER)方面表现良好。

新语音转文本模型gpt-4o-transcribe与gpt-4o-mini-transcribe在多语言语音识别上进行强化,通过强化学习与大规模语音数据集预训练,提升对不同语言、口音、语速变化与噪音环境的适应能力。根据FLEURS基准测试结果,gpt-4o-transcribe的WER明显低于Whisper-large-v2与Whisper-large-v3,特别是在英语、欧洲语系与部分亚洲语言的表现优于竞争对手,而在中文、阿拉伯语、印地语等语言的准确度仍有进步空间。

 

OpenAI同时推出新一代文本转语音模型gpt-4o-mini-tts,强化语音输出的可调整性,开发者可通过指令控制语气与风格,例如让语音代理以同理心客服或沉稳播报员的方式说话,提供语音应用更高的灵活度。OpenAI仍维持对语音合成技术的安全管控,目前仅提供人工默认语音,并通过监测确保语音输出符合既定标准。

这次OpenAI语音模型的提升主要来自于数个重要改进。首先,OpenAI采用了针对语音数据的特化预训练,使模型能够更精确地学习语音中的细微变化与语境关系。其次,通过高端的模型蒸馏技术,较小的模型gpt-4o-mini-transcribe与gpt-4o-mini-tts得以从更大型的模型学习语音转录与语音合成的能力,确保运算效率与准确率。此外,语音转文本模型采用强化学习机制,以进一步降低转录错误与语音错误识别的发生率,特别是在低资源语言与非标准语音的处理稳定有所提升。

OpenAI API的语音转文本与文本转语音功能目前已全面开放,并提供与Agents SDK的集成,简化语音应用开发流程。