多模态大语言模型 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"多模态大语言模型"的内容

阿里巴巴推出HumanOmniV2多模态模型强化全局上下文理解与推理能力

阿里巴巴推出HumanOmniV2多模态模型强化全局上下文理解与推理能力

AI妹 5 个月前 17 0

阿里巴巴集团近期正式推出其最新多模态大语言模型HumanOmniV2，在AI领域再掀波澜。这款模型以其强大的全局上下文理解能力和多模态推理能力，标志着阿里巴巴在人工智能技术的又一次重大突破。

多模态大语言模型 Qwen系列 Wan2.1VACE 全局上下文理解 IntentBench

查看详情

阿里巴巴HumanOmniV2多模态大模型：全局推理突破，重塑AI应用新边界

阿里巴巴HumanOmniV2多模态大模型：全局推理突破，重塑AI应用新边界

AI妹 5 个月前 17 0

阿里巴巴集團近期正式推出其最新多模態大語言模型HumanOmniV2，在AI領域再掀波瀾。這款模型以其強大的全局上下文理解能力和多模態推理能力，標誌着阿里巴巴在人工智能技術的又一次重大突破。

Qwen系列阿里巴巴集团 Daily-Omni 全局上下文理解多模态推理

查看详情

阿里语音AI开源ThinkSound 全球首个支持链式推理的音频生成模型

阿里语音AI开源ThinkSound 全球首个支持链式推理的音频生成模型

AI妹 5 个月前 16 0

近日，阿里语音AI团队宣布开源全球首个支持链式推理的音频生成模型ThinkSound，该模型通过引入思维链（Chain-of-Thought）技术，突破传统视频转音频技术对画面动态捕捉的局限，实现

阿里语音AI团队音频后期处理自然语言指令交互编辑魔搭社区 ThinkSound

查看详情

阿里语音AI团队开源ThinkSound 全球首个支持链式推理的音频生成模型

阿里语音AI团队开源ThinkSound 全球首个支持链式推理的音频生成模型

AI妹 5 个月前 16 0

近日，阿里語音AI團隊宣佈開源全球首個支持鏈式推理的音頻生成模型ThinkSound，該模型通過引入思維鏈（Chain-of-Thought）技術，突破傳統視頻轉音頻技術對畫面動態捕捉的侷限，實現

多模态大语言模型自然语言指令交互 HuggingFace ThinkSound 链式推理

查看详情

快手可灵Avatar2.0革命性突破：单图音频一键生成5分钟情感唱歌视频

快手可灵Avatar2.0革命性突破：单图音频一键生成5分钟情感唱歌视频

AI妹 6 个月前 29 0

在AI视频生成领域，一项革命性突破悄然来袭。快手旗下可灵AI（KlingAI）近日重磅发布数字人模型Avatar2.0，只需输入一张人物照片、一段音乐音频，即可一键生成长达5分钟的唱歌视频。数字人

动作设计多模态导演模块教育内容 48FPS 音频情感轨迹

查看详情

字节跳动Vidi2模型：长视频理解强时空定位准性能领跑行业

字节跳动Vidi2模型：长视频理解强时空定位准性能领跑行业

AI妹 6 个月前 25 0

字节跳动刚刚发布了其最新的多模态大语言模型 Vidi2，一个拥有120亿参数、专用于视频理解的AI模型。该模型能够处理数小时长的原始素材，理解其中的故事脉络，并根据简单提示生成完整的TikTok短

VUE-STG基准 AI Outline 时空定位故事感知剪切 Smart Split

查看详情

3



资讯姬

文章数量13546

总阅读量238.071k

总评论量0

会员数量2

本站由emlog驱动