视觉语言模型 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"视觉语言模型"的内容

3D-R1模型：合成数据集等创新提升3D场景理解推理泛化能力，成效显著

3D-R1模型：合成数据集等创新提升3D场景理解推理泛化能力，成效显著

AI妹 5 个月前 18 0

In the field of artificial intelligence, vision-language models (VLMs) have made significant

3D场景理解强化学习人工智能 VLMs 视觉语言模型

查看详情

新規3D視覚言語モデル3D-R1の技術創新と性能向上成果が発表される

新規3D視覚言語モデル3D-R1の技術創新と性能向上成果が発表される

AI妹 5 个月前 18 0

人工知能分野において、視覚言語モデル（VLM）は近年顕著な進展を遂げており、特に2次元の視覚理解においては大きな成果を収めています。この分野がさらに発展するにつれて、研究者たちは3Dシ

3D-R1 强化学习 Scene-30K 视觉语言模型 VLM

查看详情

澳大利亚AEHRC用VLM模型辅助胸部X光分析减轻医生负担提升报告准确性

澳大利亚AEHRC用VLM模型辅助胸部X光分析减轻医生负担提升报告准确性

AI妹 5 个月前 17 0

随着人工智能（AI）技术的不断发展，越来越多的澳大利亚人开始在日常生活中使用 AI。CSIRO(联邦科学与工业研究组织)下属的澳大利亚电子健康研究中心(AEHRC)正在积极探索如何将 AI 应用于

视觉语言模型 VLM 胸部X光片分析急诊科记录伦理安全

查看详情

字节跳动开源多模态模型BAGEL70亿参数集生成理解等超主流开启新阶段

字节跳动开源多模态模型BAGEL70亿参数集生成理解等超主流开启新阶段

AI妹 5 个月前 16 0

字節跳動近日正式發佈其最新開源多模態基礎模型——BAGEL（Big Advanced Generalized Embodied Learner），以70億個有效參數的規模，開啓多模態AI模型的新階

混合变压器-专家结构开源模型字节跳动视觉语言模型 GitHub

查看详情

字节跳动开源70亿参数多模态模型BAGEL 性能超越主流视觉语言模型

字节跳动开源70亿参数多模态模型BAGEL 性能超越主流视觉语言模型

AI妹 5 个月前 18 0

字节跳动近日正式发布其最新开源多模态基础模型——BAGEL（Big Advanced Generalized Embodied Learner），以70亿个有效参数的规模，开启多模态AI模型的新阶

InternVL-2.5 Qwen2.5-VL Big Advanced Generalized Embodied Learner 视觉语言模型混合变压器-专家结构

查看详情

字节跳动发布70亿参数开源多模态模型BAGEL 性能超主流VLM生成能力强

字节跳动发布70亿参数开源多模态模型BAGEL 性能超主流VLM生成能力强

AI妹 5 个月前 19 0

字節跳動は最近、最新のオープンソース多モーダル基礎モデルである「BAGEL（Big Advanced Generalized Embodied Learner）」を正式に発表しました。70億個の有

Qwen2.5-VL 图像编辑多模态基础模型字节跳动图像理解

查看详情

Visual-ARFT方法提升视觉语言模型多模态智能体能力获显著突破

Visual-ARFT方法提升视觉语言模型多模态智能体能力获显著突破

AI妹 5 个月前 16 0

隨着人工智能的迅猛發展，尤其是在大型推理模型領域，如 OpenAI 的 o3，研究者們正在努力讓這些模型具備更強的智能體能力。這種能力不僅僅侷限於文本處理，更擴展到了圖像理解與操作。近日，來自上海

GPT-4o 上海人工智能实验室 MAT-Bench 多模态智能体能力上海交通大学

查看详情

Visual-ARFT方法助力视觉语言模型智能体能力提升新基准验证优异成效

Visual-ARFT方法助力视觉语言模型智能体能力提升新基准验证优异成效

AI妹 5 个月前 14 0

随着人工智能的迅猛发展，尤其是在大型推理模型领域，如 OpenAI 的 o3，研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理，更扩展到了图像理解与操作。近日，来自上海

视觉语言模型 Visual-ARFT 上海交通大学视觉智能体强化微调武汉大学

查看详情

艾伦人工智能研究所发布Molmo2开源视频语言模型支持多模态推理与定制

艾伦人工智能研究所发布Molmo2开源视频语言模型支持多模态推理与定制

AI妹 5 个月前 26 0

近日，艾伦人工智能研究所（Ai2）发布了全新的 Molmo2开源视频语言模型。这一系列新模型和相关训练数据展示了该非营利机构在开源领域的坚定承诺，特别是在企业希望掌控模型使用的背景下，这无疑是一项

数据集 80亿参数字幕生成多图像输入数据主权

查看详情

英伟达NeurIPS发布首个自动驾驶VLAM模型及工具全力推进物理人工智能

英伟达NeurIPS发布首个自动驾驶VLAM模型及工具全力推进物理人工智能

AI妹 6 个月前 32 0

芯片巨头英伟达周一在加州圣地亚哥举行的 NeurIPS 人工智能大会上宣布了新的基础设施和人工智能模型，此举旨在加速构建物理人工智能（Physical AI）的基础技术，该领域包括能够感知现实世界

NeurIPS人工智能大会 Alpamayo-R1 比尔·戴利 GitHub 视觉语言模型

查看详情

2



资讯姬

文章数量13547

总阅读量240.562k

总评论量0

会员数量2

本站由emlog驱动