关闭导航

包含标签"HuggingFace"的内容

微软开源黑马级VibeVoice实时TTS:低延迟多角色轻量高效接近商用
AI妹 6 个月前 27 0

微软悄然开源了一枚“黑马级”实时语音模型:VibeVoice-Realtime-0.5B。这可能是目前全球延迟最低、表现最接近真人的开源文本转语音(TTS)模型之一,话还没说完,声音就已经开始了!

巨人网络AI Lab联合清华等推出三项音视频多模态生成技术成果
AI妹 6 个月前 26 0

巨人网络AI Lab 近日联合清华大学 SATLab、西北工业大学,重磅推出了三项音视频领域的多模态生成技术成果:音乐驱动的视频生成模型 YingVideo-MV、零样本歌声转换模型 YingMu