音频 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"音频"的内容

谷歌发布Gemini Omni多模态AI模型提升跨模态交互效率与实时性

谷歌发布Gemini Omni多模态AI模型提升跨模态交互效率与实时性

AI妹 21 天前 2 0

谷歌在 5 月 19 日正式发布了其最新的 Gemini Omni 模型，标志着其在人工智能领域的一次重大突破。作为 Gemini 模型家族的最新成员，Gemini Omni 将多模态技术提升到了

准确性跨模态交互图像多模态AI模型人机交互

查看详情

字节跳动火山引擎Seedance2.0于4月2日正式开放普通API客户申请

字节跳动火山引擎Seedance2.0于4月2日正式开放普通API客户申请

AI妹 2 个月前 3 0

字节跳动旗下火山引擎于4月2日启动Seedance2.0面向普通 API 客户的开放申请，标志着这款多模态视频生成模型从火山方舟体验中心和限量邀测阶段，正式向更广泛开发者与企业开放。 Seeda

版权保护运动复制火山引擎官网 Generative计划火山方舟控制台

查看详情

谷歌发布Gemini Embedding2 支持多模态内容统一语义向量映射

谷歌发布Gemini Embedding2 支持多模态内容统一语义向量映射

AI妹 3 个月前 6 0

谷歌近日发布原生多模态嵌入模型 Gemini Embedding2，该模型可将文本、图像、视频、音频以及 PDF 文档统一映射到同一语义向量空间，旨在简化复杂的 AI 数据处理流程，并提升多模态检

Gemini Embedding2 交错输入技术 1536 情感分析原生音频处理

查看详情

谷歌推出Gemini Embedding2原生多模态嵌入模型实现跨媒体深度理解与高效检索

谷歌推出Gemini Embedding2原生多模态嵌入模型实现跨媒体深度理解与高效检索

AI妹 3 个月前 5 0

谷歌正式推出全新 Gemini Embedding2模型。作为谷歌首个原生多模态嵌入模型，它打破了传统模型仅支持单一数据类型的局限，能够将文本、图像、视频、音频和文档同时映射到同一个数学向量空间中

多模态嵌入模型图像检索增强生成(RAG) Gemini3 文本

查看详情

Meta专利技术：多模态感知生成智能面部表情提升虚拟互动体验

Meta专利技术：多模态感知生成智能面部表情提升虚拟互动体验

AI妹 4 个月前 9 0

在虚拟互动中，面部表情的自然生成一直是个难题，传统的解决方案常常依赖于昂贵的硬件设备或者只是简单地同步音频。这样的方式在用户全身活动、面部被部分遮挡，或者只通过身体动作来传达信息时，难以生成准确且

医疗游戏健身动画环境上下文

查看详情

AI引发新闻流量滑坡，媒体推动记者转型创作者寻找新生存路径

AI引发新闻流量滑坡，媒体推动记者转型创作者寻找新生存路径

AI妹 4 个月前 13 0

随着 AI 搜索摘要和聊天机器人的迅速普及，传统媒体赖以生存的流量模式正面临毁灭性打击。路透社新闻研究所的一项最新报告显示，全球新闻网站的搜索推荐流量在短短一年内已经暴跌了三分之一。业界高管普遍预

订阅制 AI搜索摘要流量时代终结传统媒体流量模式 ChatGPT

查看详情

G123极简AI导航：解决找工具痛点，建私人库同步分享超高效创作协作

G123极简AI导航：解决找工具痛点，建私人库同步分享超高效创作协作

AI妹 5 个月前 14 0

还在为“ChatGPT 在哪找、Midjourney 又忘了网址、团队协作工具地址不同步”而抓狂?把 2025 年最硬核的 AI 导航—

设计培训讲师写作导入书签自媒体

查看详情

“万卷·丝路2.0”多语言多模态语料库正式开源赋能多语言模型发展

“万卷·丝路2.0”多语言多模态语料库正式开源赋能多语言模型发展

AI妹 5 个月前 16 0

由上海人工智能实验室发布的“万卷·丝路2.0”多语言多模态语料库正式开源。该语料库在原有的阿拉伯语、俄语、韩语、越南语、泰语等5个语种基础上，新增了塞尔维亚语、匈牙利语、捷克语3个稀缺语料数据，涵

ModelScope 文化旅游塞尔维亚语图片数据集

查看详情

“万卷·丝路2.0”多语言多模态语料库新增稀缺语种正式开源

“万卷·丝路2.0”多语言多模态语料库新增稀缺语种正式开源

AI妹 5 个月前 23 0

由上海人工智能實驗室發佈的“萬卷·絲路2.0”多語言多模態語料庫正式開源。該語料庫在原有的阿拉伯語、俄語、韓語、越南語、泰語等5個語種基礎上，新增了塞爾維亞語、匈牙利語、捷克語3個稀缺語料數據，涵

文本图片多语言多模态语料库音频商业贸易

查看详情

复旦腾讯DICE-Talk技术突破：身份情感分离高效生成逼真的情感说话人视频

复旦腾讯DICE-Talk技术突破：身份情感分离高效生成逼真的情感说话人视频

AI妹 5 个月前 18 0

由复旦大学与腾讯联合研发的DICE-Talk说话人视频生成工具于近日正式发布，以其卓越的情感表达能力和逼真的人物表现引发行业热议。AIbase通过整合社交媒体最新动态及公开信息，为您深度解析这一技

复旦大学腾讯身份-情感分离处理机制 FFmpeg 说话人视频生成工具

查看详情

1



资讯姬

文章数量13541

总阅读量236.281k

总评论量0

会员数量2

本站由emlog驱动