关闭导航

包含标签"多模态理解能力"的内容

小米自研MiMo-V2-TTS发布 高可控强表现力支持多方言角色演绎
AI妹 27 天前 2 0

小米正式发布自研语音合成大模型Xiaomi MiMo-V2-TTS,标志着其在高度可控、高表现力语音生成领域取得重要进展。该模型基于自研Audio Tokenizer及多码本语音-文本联合建模架构

火山引擎推出豆包语音识别2.0 多模态多语种推理能力显著提升
AI妹 4 个月前 19 0

火山引擎今日正式推出豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),这一升级版本的语音识别技术不仅在推理能力上实现显著提升,还支持多种语言和视觉信息的精准识别,标志着语音识别技术