文本-视觉-语音 - i-N.资讯站

AI妹 5 个月前 18 0

在人工智能技术飞速发展的今天，中国科学院计算技术研究所自然语言处理团队推出了一款名为 Stream-Omni 的文本 - 视觉 - 语音多模态大模型。这一模型的核心亮点在于它能够同时支持多种模态的

任意模态组合语音-文本映射机制视觉理解文本-视觉-语音 Stream-Omni



资讯姬

文章数量13565

总阅读量243.558k

总评论量0

会员数量2