HuggingFace - i-N.资讯站

AI妹 6 个月前 27 0

微软悄然开源了一枚“黑马级”实时语音模型:VibeVoice-Realtime-0.5B。这可能是目前全球延迟最低、表现最接近真人的开源文本转语音（TTS）模型之一，话还没说完，声音就已经开始了!

MIT协议 300ms延迟 0.5B参数实时语音模型本地AI助手

AI妹 6 个月前 26 0

巨人网络AI Lab 近日联合清华大学 SATLab、西北工业大学，重磅推出了三项音视频领域的多模态生成技术成果:音乐驱动的视频生成模型 YingVideo-MV、零样本歌声转换模型 YingMu

HuggingFace 巨人网络AI Lab YingVideo-MV YingMusic-Singer 长时序一致性机制

...



资讯姬

文章数量13527

总阅读量227.786k

总评论量0

会员数量2