关闭导航

包含标签"视觉编码器"的内容

源Yuan3.0Flash开源40B多模态大模型 性能超GPT-5.1算力成本低
AI妹 20 天前 9 0

近日,YuanLab.ai 团队正式发布了源 Yuan3.0Flash 多模态基础大模型,这一模型的开源将为 AI 领域带来新的机遇。该模型不仅包括16bit 与4bit 的模型权重,还提供了详细

Meta发布五项AI感知前沿成果 构建高级机器智能关键路径
AI妹 1 个月前 9 0

Meta人工智能研究团队(FAIR)近日公开发布五项前沿研究成果,标志着AI感知领域的重大突破。这些开源项目从视觉编码器到3D空间理解,再到协作式推理框架,共同构建了通向高级机器智能(AMI)的关

加州大学圣克鲁兹分校全新OpenVision视觉编码器:多样模型与灵活高效部署
AI妹 1 个月前 10 0

加州大學聖克魯茲分校近日宣佈推出 OpenVision,這是一個全新的視覺編碼器系列,旨在爲 OpenAI 的 CLIP 和谷歌的 SigLIP 等模型提供替代方案。OpenVision 的發佈爲

加州大学圣克鲁兹分校推出OpenVision视觉编码器系列替代CLIP/SigLIP高效灵活
AI妹 1 个月前 9 0

加州大学圣克鲁兹分校近日宣布推出 OpenVision,这是一个全新的视觉编码器系列,旨在为 OpenAI 的 CLIP 和谷歌的 SigLIP 等模型提供替代方案。OpenVision 的发布为

英伟达发布Cosmos-Reason1系列模型 提升AI物理推理及具身能力
AI妹 1 个月前 8 0

近日,英偉達發佈了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常識和具身推理方面的能力。隨着人工智能在語言處理、數學及代碼生成等領域取得顯著進展,如何將這些能力擴展到物理

英伟达Cosmos-Reason1模型增强AI物理与具身推理
AI妹 1 个月前 9 0

近日,英伟达发布了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常识和具身推理方面的能力。随着人工智能在语言处理、数学及代码生成等领域取得显著进展,如何将这些能力扩展到物理

中科院计算所创新推出Stream-Omni多模态大模型 灵活交互高效对齐助智能交互
AI妹 1 个月前 8 0

Today, with the rapid development of artificial intelligence technology, the Natural Language Proc

推特辩论催生iREPA新框架:谢赛宁团队揭示空间结构驱动生成性能
AI妹 1 个月前 10 0

最近,谢赛宁团队的新作 “iREPA” 便是源于一场持续了四个月的推特辩论。这场论战虽以谢赛宁的让步为结局,却意外催生了一篇重要论文,展示了新颖的研究思路。 事件的起源可以追溯到八月份。当时,一

商汤与南洋理工联合开源NEO多模态模型 性能效率通用性全面突破
AI妹 1 个月前 17 0

商汤科技与南洋理工大学S-Lab联合发布并开源全新多模态模型架构NEO,通过底层架构创新实现视觉与语言的深层统一,在性能、效率和通用性上取得全面突破。 极致数据效率:1/10数据量达顶尖性能

青岛虚拟智能体产业大会推出首个全模态实时交互VisualGPT 开放训练平台资源
AI妹 1 个月前 15 0

青岛虚拟智能体产业大会正式推出国内首个支持全模态实时交互的视觉语言大模型 VisualGPT,并同步上线智能体训练平台,面向全国开发者开放多模态数据与算力资源,标志着AI交互从“文字对话”迈入“视