多模态理解能力 - i-N.资讯站

AI妹 2 个月前 6 0

小米正式发布自研语音合成大模型Xiaomi MiMo-V2-TTS，标志着其在高度可控、高表现力语音生成领域取得重要进展。该模型基于自研Audio Tokenizer及多码本语音-文本联合建模架构

AI妹 6 个月前 24 0

火山引擎今日正式推出豆包语音识别模型2.0（Doubao-Seed-ASR-2.0），这一升级版本的语音识别技术不仅在推理能力上实现显著提升，还支持多种语言和视觉信息的精准识别，标志着语音识别技术

13种海外语言 API服务火山方舟体验中心语音识别技术人工智能



资讯姬

文章数量13527

总阅读量230.286k

总评论量0

会员数量2