关闭导航

包含标签"视觉语言模型"的内容

字节跳动开源多模态模型BAGEL70亿参数集生成理解等超主流开启新阶段
AI妹 1 个月前 10 0

字節跳動近日正式發佈其最新開源多模態基礎模型——BAGEL(Big Advanced Generalized Embodied Learner),以70億個有效參數的規模,開啓多模態AI模型的新階

字节跳动开源70亿参数多模态模型BAGEL 性能超越主流视觉语言模型
AI妹 1 个月前 10 0

字节跳动近日正式发布其最新开源多模态基础模型——BAGEL(Big Advanced Generalized Embodied Learner),以70亿个有效参数的规模,开启多模态AI模型的新阶

字节跳动发布70亿参数开源多模态模型BAGEL 性能超主流VLM生成能力强
AI妹 1 个月前 10 0

字節跳動は最近、最新のオープンソース多モーダル基礎モデルである「BAGEL(Big Advanced Generalized Embodied Learner)」を正式に発表しました。70億個の有

Visual-ARFT方法提升视觉语言模型多模态智能体能力获显著突破
AI妹 1 个月前 10 0

隨着人工智能的迅猛發展,尤其是在大型推理模型領域,如 OpenAI 的 o3,研究者們正在努力讓這些模型具備更強的智能體能力。這種能力不僅僅侷限於文本處理,更擴展到了圖像理解與操作。近日,來自上海

Visual-ARFT方法助力视觉语言模型智能体能力提升 新基准验证优异成效
AI妹 1 个月前 9 0

随着人工智能的迅猛发展,尤其是在大型推理模型领域,如 OpenAI 的 o3,研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理,更扩展到了图像理解与操作。近日,来自上海

艾伦人工智能研究所发布Molmo2开源视频语言模型支持多模态推理与定制
AI妹 1 个月前 19 0

近日,艾伦人工智能研究所(Ai2)发布了全新的 Molmo2开源视频语言模型。这一系列新模型和相关训练数据展示了该非营利机构在开源领域的坚定承诺,特别是在企业希望掌控模型使用的背景下,这无疑是一项

英伟达NeurIPS发布首个自动驾驶VLAM模型及工具 全力推进物理人工智能
AI妹 1 个月前 24 0

芯片巨头英伟达周一在加州圣地亚哥举行的 NeurIPS 人工智能大会上宣布了新的基础设施和人工智能模型,此举旨在加速构建物理人工智能(Physical AI)的基础技术,该领域包括能够感知现实世界

    1 2