关闭导航

Inworld AI推出实时TTS-2模型 闭环系统捕捉情感提升对话自然度

AI妹 2026-5-6 0 0

Inworld AI 近日推出了其最新的语音模型 —— 实时 TTS-2。这款模型通过 Inworld API 和 Inworld Realtime API 的研究预览版本,旨在改变传统语音 AI 的对话方式。以往,语音合成模型仅仅是将文本转换为音频,而 TTS-2则能够实时听取交流中的音频,感知用户的语调、节奏和情感状态而提供更自然的对话体验。

image.png

TTS-2的关键特点在于其闭环系统架构。与传统模型不同,它不仅仅依赖文字转录,而是直接接收交流中的实际音频。这一差异使得模型能够理解同一句话在不同情境下的含义。例如,“好吧,算了” 在沮丧的语气和轻松的语气中传达的情感大相径庭。TTS-2能够捕捉到这些情感信息,提升了对话的连贯性和真实感。

该模型配备了四大功能,进一步增强了其独特性。首先是 “语音指令” 功能,允许开发者在推理时用简单的语言提示来引导语音的表达,而非仅仅选择固定的情感标签。其次是 “对话意识”,即闭环架构让模型理解上下文。此外,TTS-2支持跨语言的语音识别和输出,用户可以在同一对话中无缝切换语言,保持声音的统一性。最后是 “高级语音设计”,允许开发者通过描述性文字生成可重复使用的声音,无需参考音频。

TTS-2的推出标志着 Inworld AI 在语音技术上的进一步突破。该模型不仅能处理高质量的音频输出,更专注于上下文意识和语音的一致性,提升了用户体验。通过这些创新,Inworld AI 希望在竞争激烈的语音 AI 市场中脱颖而出。

划重点:  

** 实时对话 **:TTS-2通过闭环系统捕捉用户的音频,理解情感和语调。  

** 多语言支持 **:一个声音身份可以在100多种语言中保持一致,支持中间切换。  

️ ** 语音设计灵活 **:开发者可通过描述性文字生成可重复使用的声音,无需额外音频参考。

点赞 (0) 分享