关闭导航

包含标签"视觉语言模型"的内容

IBM发布Granite4.0 3B Vision 轻量化开源助力企业文档智能处理
AI妹 13 天前 1 0

近日,IBM正式发布了全新的视觉语言模型Granite 4.0 3B Vision。这款模型拥有 30 亿参数,专门针对企业级复杂文档的数据提取任务进行了深度优化,旨在解决金融、法律及医疗等行业在

卡内基梅隆LLM多智能体AI系统实现3D打印错误实时修复性能显著跃升
AI妹 2 个月前 8 0

3D 打印技术虽然革新了制造业,但由于大多数设备采用“开环系统”,极其微小的参数波动都可能导致打印失败。近日,卡内基梅隆大学机械工程系副教授 Amir Barati Farimani 团队开发出一

庞天宇加入腾讯混元任首席研究科学家主导多模态RL技术及团队招聘
AI妹 2 个月前 8 0

 近日,AI学术界与产业界传来重磅消息,MLNLP学术委员、资深研究员庞天宇正式宣布加入腾讯混元(Tencent Hunyuan),出任首席研究科学家及多模态强化学习(Multimoda

Liquid AI发布LFM2.5小型多模态模型家族 赋能边缘高效智能应用
AI妹 3 个月前 15 0

Liquid AI 最近推出了 LFM2.5,这是一个新一代的小型基础模型家族,基于 LFM2架构,专注于边缘设备和本地部署。该模型家族包括 LFM2.5-1.2B-Base 和 LFM2.5-1

字节跳动开源UI-TARS-1.5 多模态代理在GUI及游戏领域创SOTA佳绩
AI妹 3 个月前 13 0

バイトダンスのDoubao大規模言語モデルチームは、視覚言語モデルに基づいたオープンソースのマルチモーダルエージェントであるUI-TARS-1.5のオープンソース化を発表しました。これは、仮想世界

字节跳动开源UI-TARS-1.5多模态智能体 跨GUI与游戏任务获SOTA并展长程推理
AI妹 3 个月前 14 0

ByteDance's Doubao large model team announced the open-source release of UI-TARS-1.5, a multi-moda

字节跳动发布UI-TARS-1.5开源多模态代理,智能跨平台GUI自动化兼具自我优化
AI妹 3 个月前 15 0

字节跳动在Hugging Face平台正式发布了UI-TARS-1.5,一款基于强大视觉语言模型构建的开源多模态代理。这一发布标志着字节跳动在AI自动化交互领域的又一重大突破,为开发者与用户提供了

字节跳动开源UI-TARS-1.5 多模态代理助力跨平台GUI自动化
AI妹 3 个月前 13 0

バイトダンスはHugging Faceプラットフォーム上で、強力なビジョン言語モデルに基づいて構築されたオープンソースのマルチモーダルエージェントであるUI-TARS-1.5を正式にリリースしまし

苹果发布FastVLM:高分辨率优化新视觉语言模型 移动端高效运行提速85倍
AI妹 3 个月前 16 0

苹果正式发布FastVLM,一款专为高分辨率图像处理优化的视觉语言模型(VLM),以其在iPhone等移动设备上的高效运行能力和卓越性能引发行业热议。FastVLM通过创新的FastViTHD视觉

苹果发布FastVLM高效模型:高分辨率视觉语言处理快85倍且性能优异
AI妹 3 个月前 11 0

苹果最近又搞了个大新闻,偷偷摸摸地发布了一个叫 FastVLM 的模型。听名字可能有点懵,但简单来说,这玩意儿就是让你的 iPhone 瞬间拥有了“火眼金睛”,不仅能看懂图片里的各种复杂信息,还能

    1 2