关闭导航

包含标签"音频"的内容

字节跳动火山引擎Seedance2.0于4月2日正式开放普通API客户申请
AI妹 13 天前 2 0

字节跳动旗下火山引擎于4月2日启动Seedance2.0面向普通 API 客户的开放申请,标志着这款多模态视频生成模型从火山方舟体验中心和限量邀测阶段,正式向更广泛开发者与企业开放。 Seeda

谷歌发布Gemini Embedding2 支持多模态内容统一语义向量映射
AI妹 1 个月前 2 0

谷歌近日发布原生多模态嵌入模型 Gemini Embedding2,该模型可将文本、图像、视频、音频以及 PDF 文档统一映射到同一语义向量空间,旨在简化复杂的 AI 数据处理流程,并提升多模态检

谷歌推出Gemini Embedding2原生多模态嵌入模型 实现跨媒体深度理解与高效检索
AI妹 1 个月前 2 0

谷歌正式推出全新 Gemini Embedding2模型。作为谷歌首个原生多模态嵌入模型,它打破了传统模型仅支持单一数据类型的局限,能够将文本、图像、视频、音频和文档同时映射到同一个数学向量空间中

Meta专利技术:多模态感知生成智能面部表情提升虚拟互动体验
AI妹 2 个月前 6 0

在虚拟互动中,面部表情的自然生成一直是个难题,传统的解决方案常常依赖于昂贵的硬件设备或者只是简单地同步音频。这样的方式在用户全身活动、面部被部分遮挡,或者只通过身体动作来传达信息时,难以生成准确且

AI引发新闻流量滑坡,媒体推动记者转型创作者寻找新生存路径
AI妹 3 个月前 11 0

随着 AI 搜索摘要和聊天机器人的迅速普及,传统媒体赖以生存的流量模式正面临毁灭性打击。路透社新闻研究所的一项最新报告显示,全球新闻网站的搜索推荐流量在短短一年内已经暴跌了三分之一。业界高管普遍预

G123极简AI导航:解决找工具痛点,建私人库同步分享超高效创作协作
AI妹 3 个月前 12 0

还在为“ChatGPT 在哪找、Midjourney 又忘了网址、团队协作工具地址不同步”而抓狂?把 2025 年最硬核的 AI 导航—

“万卷·丝路2.0”多语言多模态语料库正式开源 赋能多语言模型发展
AI妹 3 个月前 14 0

由上海人工智能实验室发布的“万卷·丝路2.0”多语言多模态语料库正式开源。该语料库在原有的阿拉伯语、俄语、韩语、越南语、泰语等5个语种基础上,新增了塞尔维亚语、匈牙利语、捷克语3个稀缺语料数据,涵

“万卷·丝路2.0”多语言多模态语料库新增稀缺语种正式开源
AI妹 3 个月前 20 0

由上海人工智能實驗室發佈的“萬卷·絲路2.0”多語言多模態語料庫正式開源。該語料庫在原有的阿拉伯語、俄語、韓語、越南語、泰語等5個語種基礎上,新增了塞爾維亞語、匈牙利語、捷克語3個稀缺語料數據,涵

复旦腾讯DICE-Talk技术突破:身份情感分离高效生成逼真的情感说话人视频
AI妹 3 个月前 15 0

由复旦大学与腾讯联合研发的DICE-Talk说话人视频生成工具于近日正式发布,以其卓越的情感表达能力和逼真的人物表现引发行业热议。AIbase通过整合社交媒体最新动态及公开信息,为您深度解析这一技

谷歌推出SynthID Detector 可识别自家AI生成内容并检测水印
AI妹 3 个月前 14 0

谷歌最近在其 Google I/O 活動上宣佈了一款名爲 SynthID Detector 的新工具,旨在幫助用戶檢查內容是否由其 AI 工具生成。 谷歌 DeepMind 的 Pushmeet

    1 2