WER - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"WER"的内容

美团LongCat团队开源LongCat-AudioDiT 端到端语音克隆性能创新高

美团LongCat团队开源LongCat-AudioDiT 端到端语音克隆性能创新高

AI妹 2 个月前 5 0

音频生成技术正迎来从级联架构向端到端生成的范式转移。针对传统 TTS 系统因“梅尔频谱”中间表征带来的信息损耗与误差累积，美团 LongCat 团队于今日正式发布并开源了 LongCa

Wav-VAE UMT5文本编码器 HuggingFace LongCat-AudioDiT 零样本语音克隆

查看详情

英伟达Parakeet-TDT-0.6B-V2 ASR：超高效秒转60分钟低词错率兼容广开源灵活

英伟达Parakeet-TDT-0.6B-V2 ASR：超高效秒转60分钟低词错率兼容广开源灵活

AI妹 5 个月前 14 0

近日，英偉達在 Hugging Face 平臺上推出了其最新的自動語音識別（ASR）模型 ——Parakeet-TDT-0.6B-V2。這一新模型不僅在性能上有顯著提升，還將開源理念與商業應用相結

语音助手负责任的AI开发框架 Hugging Face NeMo工具包 H100

查看详情

MiniMax Speech-02登顶国际权威音声榜单超越OpenAI等巨头创SOTA

MiniMax Speech-02登顶国际权威音声榜单超越OpenAI等巨头创SOTA

AI妹 5 个月前 16 0

人工知能領域の急速な発展の中で、国産の大規模モデルの進化速度には驚かされます。今年の初めには、DeepSeek-R1が低コストでOpenAIを上回る性能を示し、海外の大規模モデルによる市場の独占的

TTS 话者类似度 Artificial Analysis SOTA 零样本语音克隆

查看详情

通義大模型CoGenAV：音视频同步语音技术革新多任务性能优异

通義大模型CoGenAV：音视频同步语音技术革新多任务性能优异

AI妹 5 个月前 19 0

最近、通義大模型はCoGenAVを発表しました。これは音声と映像の同期というアイデアに基づいて音声認識技術を革新し、雑音干渉による問題を効果的に解決しています。従来の音声認識技術はノイズ環境

LRS2データセット ModelScope AVSS VSR HuggingFace

查看详情

NVIDIA发布Canary-Qwen-2.5B混合模型创ASR新纪录且支持商业开源

NVIDIA发布Canary-Qwen-2.5B混合模型创ASR新纪录且支持商业开源

AI妹 5 个月前 14 0

NVIDIA刚刚发布了Canary-Qwen-2.5B，这是一款突破性的自动语音识别（ASR）和语言模型(LLM)混合模型，以创纪录的5.63%词错率(WER)荣登Hugging Face Ope

NVIDIA Canary-Qwen-2.5B 问答模块化摘要 A100

查看详情



资讯姬

文章数量13546

总阅读量238.074k

总评论量0

会员数量2

本站由emlog驱动