关闭导航

包含标签"多模态大语言模型"的内容

阿里语音AI团队开源ThinkSound 全球首个支持链式推理的音频生成模型
AI妹 3 个月前 14 0

近日,阿里語音AI團隊宣佈開源全球首個支持鏈式推理的音頻生成模型ThinkSound,該模型通過引入思維鏈(Chain-of-Thought)技術,突破傳統視頻轉音頻技術對畫面動態捕捉的侷限,實現

快手可灵Avatar2.0革命性突破:单图音频一键生成5分钟情感唱歌视频
AI妹 4 个月前 25 0

在AI视频生成领域,一项革命性突破悄然来袭。快手旗下可灵AI(KlingAI)近日重磅发布数字人模型Avatar2.0,只需输入一张人物照片、一段音乐音频,即可一键生成长达5分钟的唱歌视频。数字人

字节跳动Vidi2模型:长视频理解强时空定位准性能领跑行业
AI妹 4 个月前 22 0

字节跳动刚刚发布了其最新的多模态大语言模型 Vidi2,一个拥有120亿参数、专用于视频理解的AI模型。该模型能够处理数小时长的原始素材,理解其中的故事脉络,并根据简单提示生成完整的TikTok短