视觉-语言模型 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"视觉-语言模型"的内容

字节跳动开源UI-TARS-1.5多模态智能体多项基准SOTA且具游戏推理能力

字节跳动开源UI-TARS-1.5多模态智能体多项基准SOTA且具游戏推理能力

AI妹 5 个月前 17 0

字節跳動豆包大模型團隊宣佈開源 UI-TARS-1.5，這是一款基於視覺 - 語言模型構建的開源多模態智能體，能夠在虛擬世界中高效執行各類任務。該模型在7個典型的 GUI 圖形用戶界面評測基準中取

视觉感知增强感知-推理-记忆-行动一体化结构可自我演化的训练范式开源原生智能体模型

查看详情

字节跳动开源UI-TARS-1.5 多模态智能体在GUI及游戏任务中获SOTA表现

字节跳动开源UI-TARS-1.5 多模态智能体在GUI及游戏任务中获SOTA表现

AI妹 5 个月前 18 0

字节跳动豆包大模型团队宣布开源 UI-TARS-1.5，这是一款基于视觉 - 语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。该模型在7个典型的 GUI 图形用户界面评测基准中取

开源多模态智能体统一动作建模 SOTA表现字节跳动豆包大模型团队强化学习

查看详情

Meta FAIR发布五项AI感知领域前沿研究成果实现重大突破

Meta FAIR发布五项AI感知领域前沿研究成果实现重大突破

AI妹 5 个月前 19 0

Meta人工智能研究團隊（FAIR）近日公開發布五項前沿研究成果，標誌着AI感知領域的重大突破。這些開源項目從視覺編碼器到3D空間理解，再到協作式推理框架，共同構建了通向高級機器智能(AMI)的關

AMI 3D点云语言模型鲁棒性 Matrix引擎 FAIR

查看详情

首个IDP Leaderboard基准正式发布主流模型智能文档处理能力全面评估

首个IDP Leaderboard基准正式发布主流模型智能文档处理能力全面评估

AI妹 5 个月前 17 0

5月11日，智能文檔處理領域迎來重大進展——首個針對視覺-語言模型的統一基準測試"IDP Leaderboard"正式推出。該基準通過16個數據集、9229份文檔，全面評估了當前主流模型在OCR、

LongDocBench IDP Leaderboard 长文档处理 Gemini2.0Flash Gemini2.5Flash

查看详情

首个视觉语言模型统一基准IDP Leaderboard发布评估多模型揭示文档处理挑战

首个视觉语言模型统一基准IDP Leaderboard发布评估多模型揭示文档处理挑战

AI妹 5 个月前 17 0

5月11日，智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档，全面评估了当前主流模型在OCR、

GitHub 数字化转型企业自动化 Gemini2.0Flash 智能搜索

查看详情



资讯姬

文章数量13547

总阅读量240.562k

总评论量0

会员数量2

本站由emlog驱动