词错误率(WER) - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"词错误率(WER)"的内容

英伟达Parakeet-TDT-0.6B-V2：秒转60分钟音频，低WER开源赋能各类语音场景应用

英伟达Parakeet-TDT-0.6B-V2：秒转60分钟音频，低WER开源赋能各类语音场景应用

AI妹 5 个月前 17 0

近日，英伟达在 Hugging Face 平台上推出了其最新的自动语音识别（ASR）模型 ——Parakeet-TDT-0.6B-V2。这一新模型不仅在性能上有显著提升，还将开源理念与商业应用相结

词错误率(WER) 6亿参数兼容性与效率字幕生成器 T4 GPU

查看详情

通义大模型CoGenAV音画同步创新抗噪语音识别技术并开源

通义大模型CoGenAV音画同步创新抗噪语音识别技术并开源

AI妹 5 个月前 15 0

近日，通义大模型发布CoGenAV，以音画同步理念创新语音识别技术，有效解决语音识别中噪声干扰的难题。传统语音识别在噪声环境下表现欠佳，CoGenAV则另辟蹊径，通过学习audio-visua

轻量级适配模块 HuggingFace 抗噪能力训练成本节省对比生成同步策略

查看详情

通义大模型CoGenAV音画同步抗噪语音识别多任务获突破性成果

通义大模型CoGenAV音画同步抗噪语音识别多任务获突破性成果

AI妹 5 个月前 18 0

近日，通義大模型發佈CoGenAV，以音畫同步理念創新語音識別技術，有效解決語音識別中噪聲干擾的難題。傳統語音識別在噪聲環境下表現欠佳，CoGenAV則另闢蹊徑，通過學習audio-visua

视觉语音识别(VSR) Talkies数据集轻量级适配模块 audio-visual-text时序对齐语音同步(ASD)

查看详情

阿里Qwen3-TTS免费开放 49音色10语10方言WER领先

阿里Qwen3-TTS免费开放 49音色10语10方言WER领先

AI妹 6 个月前 20 0

阿里通义千问发布新一代语音合成大模型Qwen3-TTS，即日起通过Qwen API向全球开发者免费开放。模型提供49种多角色音色，支持10种主流语言及10种中国方言，官方称其在MiniMax TT

实时流式配音成本真人级自然度韵律模型有声书

查看详情

Qwen3-TTS全面升级：新增49音色，多语种方言，自然度近真人

Qwen3-TTS全面升级：新增49音色，多语种方言，自然度近真人

AI妹 6 个月前 21 0

近日，Qwen3-TTS 语音合成模型迎来了全面升级，凭借其出色的表现，成为了语音合成领域的一颗新星。此版本不仅支持多音色、多语种和多方言，还提升了语音生成的自然性和稳定性，用户可以通过 Qwen

语音合成模型拟人化小野杏 API接口语音自然度

查看详情

阿里Qwen3-TTS推出：零样本多角色跨语言，免费100万字符超商用模型

阿里Qwen3-TTS推出：零样本多角色跨语言，免费100万字符超商用模型

AI妹 6 个月前 22 0

阿里巴巴正式推出 Qwen3家族最新成员 Qwen3-TTS，主打“零样本、多角色、跨语言”语音合成。新模型在词错误率（WER）国际基准上显著优于主流商用引擎，同步上线阿里云控制台，开发者可0元调

实时流式合成开源SOTA 语音合成免费调用阿里云控制台

查看详情



资讯姬

文章数量13613

总阅读量244.069k

总评论量0

会员数量2

本站由emlog驱动