音频生成技术正迎来从级联架构向端到端生成的范式转移。针对传统 TTS 系统因“梅尔频谱”中间表征带来的信息损耗与误差累积,美团 LongCat 团队于今日正式发布并开源了 LongCa
阿里通义实验室于3月16日正式发布并开源了影视级多场景配音多模态大模型 Fun-CineForge。该模型旨在解决 AI 配音中长期存在的口型不同步、情感表达缺失以及多角色音色不一致等核心痛点,并
传统的 AI 配音在面对影视、动画等高标准场景时,常因难以匹配复杂的情绪爆发和精准口型而遭遇瓶颈。针对这一痛点,通义实验室正式发布并开源了首个影视级多场景配音多模态大模型——
AI 音乐赛道在2026年初迎来了又一次震撼余震。3月9日,由 腾讯与清华大学人机语音交互实验室 联合研发的音乐基础模型 SongGenerat
全球开源AI社区迎来重磅里程碑。上海人工智能实验室正式发布并开源了万亿参数级别的科学多模态大模型——书生 Intern-S1-Pro。该模型基于创新的“通专融合”技术架构 SAGE 打造,不仅刷新
阶跃星辰(Stepfun)近日正式发布了其最新一代开源基座模型——Step3.5Flash。该模型专为智能体(Agent)场景打造,凭借强大的推理能力与极致的响应速度,旨在为开发者提供一个更聪明、
腾讯混元今日宣布正式开源其翻译模型1.5版本。本次更新共包含两个不同尺寸的模型:Tencent-HY-MT1.5-1.8B 和 Tencent-HY-MT1.5-7B,旨在通过极致的效率与领先的翻
开源 AI 项目 Jan 团队近日正式推出了全新的多模态大模型 Jan-v2-VL-Max。这款拥有30B 参数的模型并非盲目追求通用性,而是精准锁定在“长周期执行任务”这一核心痛点上,旨在解决
在快速发展的语言模型领域,研究人员和组织面临着诸多挑战。这些挑战包括提升推理能力、提供强大的多语言支持以及有效管理复杂的开放任务。尽管较小的模型通常更容易获得且成本较低,但在性能上往往不及更大的模
阿里通義實驗室近日發佈了一款名爲 “OmniTalker” 的新型數字人視頻生成大模型。這一創新模型的核心在於其能夠通過上傳一段參考視頻,實現對視頻中人物的表情、聲音和說話風格的精準模仿。相較於傳