关闭导航

包含标签"词错误率(WER)"的内容

英伟达Parakeet-TDT-0.6B-V2:秒转60分钟音频,低WER开源赋能各类语音场景应用
AI妹 1 个月前 9 0

近日,英伟达在 Hugging Face 平台上推出了其最新的自动语音识别(ASR)模型 ——Parakeet-TDT-0.6B-V2。这一新模型不仅在性能上有显著提升,还将开源理念与商业应用相结

通义大模型CoGenAV音画同步创新抗噪语音识别技术并开源
AI妹 1 个月前 10 0

近日,通义大模型发布CoGenAV,以音画同步理念创新语音识别技术,有效解决语音识别中噪声干扰的难题。 传统语音识别在噪声环境下表现欠佳,CoGenAV则另辟蹊径,通过学习audio-visua

通义大模型CoGenAV音画同步抗噪 语音识别多任务获突破性成果
AI妹 1 个月前 10 0

近日,通義大模型發佈CoGenAV,以音畫同步理念創新語音識別技術,有效解決語音識別中噪聲干擾的難題。 傳統語音識別在噪聲環境下表現欠佳,CoGenAV則另闢蹊徑,通過學習audio-visua

阿里Qwen3-TTS免费开放 49音色10语10方言WER领先
AI妹 1 个月前 12 0

阿里通义千问发布新一代语音合成大模型Qwen3-TTS,即日起通过Qwen API向全球开发者免费开放。模型提供49种多角色音色,支持10种主流语言及10种中国方言,官方称其在MiniMax TT

Qwen3-TTS全面升级:新增49音色,多语种方言,自然度近真人
AI妹 1 个月前 11 0

近日,Qwen3-TTS 语音合成模型迎来了全面升级,凭借其出色的表现,成为了语音合成领域的一颗新星。此版本不仅支持多音色、多语种和多方言,还提升了语音生成的自然性和稳定性,用户可以通过 Qwen

阿里Qwen3-TTS推出:零样本多角色跨语言,免费100万字符超商用模型
AI妹 1 个月前 14 0

阿里巴巴正式推出 Qwen3家族最新成员 Qwen3-TTS,主打“零样本、多角色、跨语言”语音合成。新模型在词错误率(WER)国际基准上显著优于主流商用引擎,同步上线阿里云控制台,开发者可0元调