音画同步 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"音画同步"的内容

通义大模型CoGenAV音画同步创新抗噪语音识别技术并开源

通义大模型CoGenAV音画同步创新抗噪语音识别技术并开源

AI妹 5 个月前 15 0

近日，通义大模型发布CoGenAV，以音画同步理念创新语音识别技术，有效解决语音识别中噪声干扰的难题。传统语音识别在噪声环境下表现欠佳，CoGenAV则另辟蹊径，通过学习audio-visua

音画同步 ModelScope 轻量级适配模块 ReLU激活函数 Whisper

查看详情

通义大模型CoGenAV音画同步抗噪语音识别多任务获突破性成果

通义大模型CoGenAV音画同步抗噪语音识别多任务获突破性成果

AI妹 5 个月前 18 0

近日，通義大模型發佈CoGenAV，以音畫同步理念創新語音識別技術，有效解決語音識別中噪聲干擾的難題。傳統語音識別在噪聲環境下表現欠佳，CoGenAV則另闢蹊徑，通過學習audio-visua

抗噪能力 HuggingFace 平均精度(mAP) ReLU激活函数语音增强与分离

查看详情

阿里巴巴通义实验室开源ThinkSound 多模态音频模型赋能音效创作新革命

阿里巴巴通义实验室开源ThinkSound 多模态音频模型赋能音效创作新革命

AI妹 5 个月前 18 0

2025年7月，阿里巴巴通义实验室正式开源其首款音频生成模型ThinkSound，为视频内容创作带来革命性突破。这款多模态AI模型能够基于视频、文本或音频输入，生成高保真的音效与音景，完美适配画面

高精度同步影视后期制作 Qwen语言模型多模态融合影视制作

查看详情

阿里巴巴通义实验室开源ThinkSound 多模态音频生成开启音效新革命

阿里巴巴通义实验室开源ThinkSound 多模态音频生成开启音效新革命

AI妹 5 个月前 17 0

2025年7月，阿里巴巴通義實驗室正式開源其首款音頻生成模型ThinkSound，爲視頻內容創作帶來革命性突破。這款多模態AI模型能夠基於視頻、文本或音頻輸入，生成高保真的音效與音景，完美適配畫面

多模态AI模型 AI音效师 ThinkSound 音画同步链式推理（CoT）

查看详情

阿里万相2.6发布：国内首个角色扮演视频模型，单次时长达15秒

阿里万相2.6发布：国内首个角色扮演视频模型，单次时长达15秒

AI妹 5 个月前 19 0

12月16日，阿里巴巴宣布推出新一代万相2.6系列模型，该模型针对专业影视制作和图像创作场景进行了全面升级，并被称为**“全球功能最全的视频生成模型”。万相2.6已同步上线阿里云百炼和万相官网*

图生视频全感官一致性迁移广告设计声音驱动 15秒视频时长

查看详情

2



资讯姬

文章数量13559

总阅读量242.649k

总评论量0

会员数量2

本站由emlog驱动