登录之后可以开启更多功能哦
微软悄然开源了一枚“黑马级”实时语音模型:VibeVoice-Realtime-0.5B。这可能是目前全球延迟最低、表现最接近真人的开源文本转语音(TTS)模型之一,话还没说完,声音就已经开始了!
巨人网络AI Lab 近日联合清华大学 SATLab、西北工业大学,重磅推出了三项音视频领域的多模态生成技术成果:音乐驱动的视频生成模型 YingVideo-MV、零样本歌声转换模型 YingMu