视觉编码器 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"视觉编码器"的内容

DeepSeek发布OCR2：架构创新能效高，文档处理性能超Gemini3Pro

DeepSeek发布OCR2：架构创新能效高，文档处理性能超Gemini3Pro

AI妹 2 个月前 55 0

中国 AI 领军企业 DeepSeek 近日发布了全新的视觉编码器 DeepSeek OCR2，在文档处理和图像识别领域实现重大突破。该模型通过模拟人类视觉的灵活扫描模式，彻底颠覆了传

多模态处理因果流Token DeepSeek OCR2 Token压缩率 Gemini3Pro

查看详情

源Yuan3.0Flash开源40B多模态大模型性能超GPT-5.1算力成本低

源Yuan3.0Flash开源40B多模态大模型性能超GPT-5.1算力成本低

AI妹 3 个月前 15 0

近日，YuanLab.ai 团队正式发布了源 Yuan3.0Flash 多模态基础大模型，这一模型的开源将为 AI 领域带来新的机遇。该模型不仅包括16bit 与4bit 的模型权重，还提供了详细

40B参数 Yuan3.0Flash 开源多模态基础大模型 Pro版本反思抑制奖励机制(RIRM)

查看详情

Meta发布五项AI感知前沿成果构建高级机器智能关键路径

Meta发布五项AI感知前沿成果构建高级机器智能关键路径

AI妹 3 个月前 15 0

Meta人工智能研究团队（FAIR）近日公开发布五项前沿研究成果，标志着AI感知领域的重大突破。这些开源项目从视觉编码器到3D空间理解，再到协作式推理框架，共同构建了通向高级机器智能(AMI)的关

开放词汇对象定位 Meta Locate3D 协作推理器合成数据推理效率

查看详情

加州大学圣克鲁兹分校全新OpenVision视觉编码器：多样模型与灵活高效部署

加州大学圣克鲁兹分校全新OpenVision视觉编码器：多样模型与灵活高效部署

AI妹 3 个月前 11 0

加州大學聖克魯茲分校近日宣佈推出 OpenVision，這是一個全新的視覺編碼器系列，旨在爲 OpenAI 的 CLIP 和谷歌的 SigLIP 等模型提供替代方案。OpenVision 的發佈爲

Smol-LM Hugging Face PyTorch 渐进式训练策略 CLIP

查看详情

加州大学圣克鲁兹分校推出OpenVision视觉编码器系列替代CLIP/SigLIP高效灵活

加州大学圣克鲁兹分校推出OpenVision视觉编码器系列替代CLIP/SigLIP高效灵活

AI妹 3 个月前 16 0

加州大学圣克鲁兹分校近日宣布推出 OpenVision，这是一个全新的视觉编码器系列，旨在为 OpenAI 的 CLIP 和谷歌的 SigLIP 等模型提供替代方案。OpenVision 的发布为

PyTorch 视觉-语言应用 SigLIP Hugging Face 模块化

查看详情

英伟达发布Cosmos-Reason1系列模型提升AI物理推理及具身能力

英伟达发布Cosmos-Reason1系列模型提升AI物理推理及具身能力

AI妹 3 个月前 15 0

近日，英偉達發佈了其最新的 Cosmos-Reason1系列模型，旨在提升人工智能在物理常識和具身推理方面的能力。隨着人工智能在語言處理、數學及代碼生成等領域取得顯著進展，如何將這些能力擴展到物理

双本体系统空间关系具身任务英伟达基准测试

查看详情

英伟达Cosmos-Reason1模型增强AI物理与具身推理

英伟达Cosmos-Reason1模型增强AI物理与具身推理

AI妹 3 个月前 19 0

近日，英伟达发布了其最新的 Cosmos-Reason1系列模型，旨在提升人工智能在物理常识和具身推理方面的能力。随着人工智能在语言处理、数学及代码生成等领域取得显著进展，如何将这些能力扩展到物理

仅解码器大型语言模型时间规律具身推理强化学习机器人

查看详情

中科院计算所创新推出Stream-Omni多模态大模型灵活交互高效对齐助智能交互

中科院计算所创新推出Stream-Omni多模态大模型灵活交互高效对齐助智能交互

AI妹 3 个月前 12 0

Today, with the rapid development of artificial intelligence technology, the Natural Language Proc

语音层 Stream-Omni 视觉理解层次维度语音文本映射机制 GPT-4o架构

查看详情

推特辩论催生iREPA新框架：谢赛宁团队揭示空间结构驱动生成性能

推特辩论催生iREPA新框架：谢赛宁团队揭示空间结构驱动生成性能

AI妹 3 个月前 14 0

最近，谢赛宁团队的新作 “iREPA” 便是源于一场持续了四个月的推特辩论。这场论战虽以谢赛宁的让步为结局，却意外催生了一篇重要论文，展示了新颖的研究思路。事件的起源可以追溯到八月份。当时，一

REPA 视觉编码器卷层表示对齐方法自监督学习

查看详情

商汤与南洋理工联合开源NEO多模态模型性能效率通用性全面突破

商汤与南洋理工联合开源NEO多模态模型性能效率通用性全面突破

AI妹 4 个月前 20 0

商汤科技与南洋理工大学S-Lab联合发布并开源全新多模态模型架构NEO，通过底层架构创新实现视觉与语言的深层统一，在性能、效率和通用性上取得全面突破。极致数据效率:1/10数据量达顶尖性能

图文混合理解与推理 MMStar Qwen2-VL MMB 注意力机制

查看详情

1



资讯姬

文章数量11972

总阅读量188.989k

总评论量0

会员数量2

本站由emlog驱动