关闭导航

包含标签"GUI操作"的内容

字节跳动开源UI-TARS-1.5多模态智能体 多项基准SOTA且具游戏推理能力
AI妹 1 个月前 9 0

字節跳動豆包大模型團隊宣佈開源 UI-TARS-1.5,這是一款基於視覺 - 語言模型構建的開源多模態智能體,能夠在虛擬世界中高效執行各類任務。該模型在7個典型的 GUI 圖形用戶界面評測基準中取

字节跳动开源UI-TARS-1.5 多模态智能体在GUI及游戏任务中获SOTA表现
AI妹 1 个月前 7 0

字节跳动豆包大模型团队宣布开源 UI-TARS-1.5,这是一款基于视觉 - 语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。该模型在7个典型的 GUI 图形用户界面评测基准中取

字节跳动开源UI-TARS-1.5 多模态代理在GUI及游戏领域创SOTA佳绩
AI妹 1 个月前 9 0

バイトダンスのDoubao大規模言語モデルチームは、視覚言語モデルに基づいたオープンソースのマルチモーダルエージェントであるUI-TARS-1.5のオープンソース化を発表しました。これは、仮想世界

小米MiMo-VL-7B多模态模型性能领先 创新算法赋能成开源佼佼者
AI妹 1 个月前 7 0

近日,小米公司研发的MiMo-VL多模态模型接过MiMo-7B的接力棒,在多个领域展现出了强大的实力。该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2