文本 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"文本"的内容

谷歌发布Gemini Omni多模态AI模型提升跨模态交互效率与实时性

谷歌发布Gemini Omni多模态AI模型提升跨模态交互效率与实时性

AI妹 20 天前 1 0

谷歌在 5 月 19 日正式发布了其最新的 Gemini Omni 模型，标志着其在人工智能领域的一次重大突破。作为 Gemini 模型家族的最新成员，Gemini Omni 将多模态技术提升到了

音频 Gemini Omni 多模态AI模型人机交互应用潜力

查看详情

谷歌发布Gemini Embedding2 支持多模态内容统一语义向量映射

谷歌发布Gemini Embedding2 支持多模态内容统一语义向量映射

AI妹 2 个月前 6 0

谷歌近日发布原生多模态嵌入模型 Gemini Embedding2，该模型可将文本、图像、视频、音频以及 PDF 文档统一映射到同一语义向量空间，旨在简化复杂的 AI 数据处理流程，并提升多模态检

嵌入技术基准测试文本—图像对比任务 6页PDF Weaviate

查看详情

谷歌推出Gemini Embedding2原生多模态嵌入模型实现跨媒体深度理解与高效检索

谷歌推出Gemini Embedding2原生多模态嵌入模型实现跨媒体深度理解与高效检索

AI妹 3 个月前 5 0

谷歌正式推出全新 Gemini Embedding2模型。作为谷歌首个原生多模态嵌入模型，它打破了传统模型仅支持单一数据类型的局限，能够将文本、图像、视频、音频和文档同时映射到同一个数学向量空间中

大规模数据聚类 Gemini3 检索增强生成(RAG) 文档 Gemini Embedding2

查看详情

“万卷·丝绸之路2.0”多语言多模态语料库由上海AI所正式开源

“万卷·丝绸之路2.0”多语言多模态语料库由上海AI所正式开源

AI妹 5 个月前 14 0

上海人工知能研究所が公開した「万巻・シルクロード2.0」多言語多モーダル語料庫が正式にオープンソース化されました。この語料庫は、既存のアラビア語、ロシア語、韓国語、ベトナム語、タイ語の5言語に加え

捷克语 ModelScope ms-swift 图像上海人工智能研究所

查看详情

“万卷·丝路2.0”多语言多模态语料库正式开源赋能多语言模型发展

“万卷·丝路2.0”多语言多模态语料库正式开源赋能多语言模型发展

AI妹 5 个月前 16 0

由上海人工智能实验室发布的“万卷·丝路2.0”多语言多模态语料库正式开源。该语料库在原有的阿拉伯语、俄语、韩语、越南语、泰语等5个语种基础上，新增了塞尔维亚语、匈牙利语、捷克语3个稀缺语料数据，涵

视频-文本 ms-swift 音频特色指令微调(SFT) 文化旅游

查看详情

“万卷·丝路2.0”多语言多模态语料库新增稀缺语种正式开源

“万卷·丝路2.0”多语言多模态语料库新增稀缺语种正式开源

AI妹 5 个月前 22 0

由上海人工智能實驗室發佈的“萬卷·絲路2.0”多語言多模態語料庫正式開源。該語料庫在原有的阿拉伯語、俄語、韓語、越南語、泰語等5個語種基礎上，新增了塞爾維亞語、匈牙利語、捷克語3個稀缺語料數據，涵

音频高质量 ModelScope 多语言多模态语料库捷克语

查看详情

谷歌推出SynthID Detector 可识别自家AI生成内容并检测水印

谷歌推出SynthID Detector 可识别自家AI生成内容并检测水印

AI妹 5 个月前 15 0

谷歌最近在其 Google I/O 活動上宣佈了一款名爲 SynthID Detector 的新工具，旨在幫助用戶檢查內容是否由其 AI 工具生成。谷歌 DeepMind 的 Pushmeet

Veo 视频 DeepMind SynthID水印音频

查看详情

谷歌发布开源框架LMEval，助力大语言多模态模型高效标准化评测工具

谷歌发布开源框架LMEval，助力大语言多模态模型高效标准化评测工具

AI妹 5 个月前 21 0

近日，谷歌正式發佈了開源框架 LMEval，旨在爲大語言模型（LLM）和多模態模型提供標準化的評測工具。這一框架的推出，不僅簡化了跨平臺模型性能比較，還支持文本、圖像和代碼等多領域的評估，展現了谷

多模态模型图像谷歌LMEval 开源框架文本

查看详情

vLLM发布全模态推理框架vLLM-Omni 解耦架构提效开源

vLLM发布全模态推理框架vLLM-Omni 解耦架构提效开源

AI妹 6 个月前 27 0

vLLM团队发布首个“全模态”推理框架vLLM-Omni，将文本、图像、音频、视频的统一生成从概念验证变成可落地代码。新框架已上线GitHub与ReadTheDocs，开发者可立即pip安装并调用

GitHub 文本模态生成器延迟下降语音Codec模型

查看详情



资讯姬

文章数量13527

总阅读量229.167k

总评论量0

会员数量2

本站由emlog驱动