关闭导航

包含标签"视觉-语言模型"的内容

字节跳动开源UI-TARS-1.5多模态智能体 多项基准SOTA且具游戏推理能力
AI妹 1 个月前 9 0

字節跳動豆包大模型團隊宣佈開源 UI-TARS-1.5,這是一款基於視覺 - 語言模型構建的開源多模態智能體,能夠在虛擬世界中高效執行各類任務。該模型在7個典型的 GUI 圖形用戶界面評測基準中取

字节跳动开源UI-TARS-1.5 多模态智能体在GUI及游戏任务中获SOTA表现
AI妹 1 个月前 8 0

字节跳动豆包大模型团队宣布开源 UI-TARS-1.5,这是一款基于视觉 - 语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。该模型在7个典型的 GUI 图形用户界面评测基准中取

Meta FAIR发布五项AI感知领域前沿研究成果实现重大突破
AI妹 1 个月前 8 0

Meta人工智能研究團隊(FAIR)近日公開發布五項前沿研究成果,標誌着AI感知領域的重大突破。這些開源項目從視覺編碼器到3D空間理解,再到協作式推理框架,共同構建了通向高級機器智能(AMI)的關

首个IDP Leaderboard基准正式发布 主流模型智能文档处理能力全面评估
AI妹 1 个月前 9 0

5月11日,智能文檔處理領域迎來重大進展——首個針對視覺-語言模型的統一基準測試"IDP Leaderboard"正式推出。該基準通過16個數據集、9229份文檔,全面評估了當前主流模型在OCR、

首个视觉语言模型统一基准IDP Leaderboard发布 评估多模型揭示文档处理挑战
AI妹 1 个月前 10 0

5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、