视觉语言模型 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"视觉语言模型"的内容

IBM发布Granite4.0 3B Vision 轻量化开源助力企业文档智能处理

IBM发布Granite4.0 3B Vision 轻量化开源助力企业文档智能处理

AI妹 2 个月前 3 0

近日，IBM正式发布了全新的视觉语言模型Granite 4.0 3B Vision。这款模型拥有 30 亿参数，专门针对企业级复杂文档的数据提取任务进行了深度优化，旨在解决金融、法律及医疗等行业在

法律文档智能轻量化架构边缘侧部署金融

查看详情

卡内基梅隆LLM多智能体AI系统实现3D打印错误实时修复性能显著跃升

卡内基梅隆LLM多智能体AI系统实现3D打印错误实时修复性能显著跃升

AI妹 4 个月前 10 0

3D 打印技术虽然革新了制造业，但由于大多数设备采用“开环系统”，极其微小的参数波动都可能导致打印失败。近日，卡内基梅隆大学机械工程系副教授 Amir Barati Farimani 团队开发出一

大语言模型(LLM) AI实时自动修复系统 AI自愈时代指挥家智能体 3D打印

查看详情

庞天宇加入腾讯混元任首席研究科学家主导多模态RL技术及团队招聘

庞天宇加入腾讯混元任首席研究科学家主导多模态RL技术及团队招聘

AI妹 4 个月前 10 0

近日，AI学术界与产业界传来重磅消息，MLNLP学术委员、资深研究员庞天宇正式宣布加入腾讯混元（Tencent Hunyuan），出任首席研究科学家及多模态强化学习(Multimoda

庞天宇多模态大模型机器学习微软学者奖学金多模态强化学习

查看详情

Liquid AI发布LFM2.5小型多模态模型家族赋能边缘高效智能应用

Liquid AI发布LFM2.5小型多模态模型家族赋能边缘高效智能应用

AI妹 5 个月前 18 0

Liquid AI 最近推出了 LFM2.5，这是一个新一代的小型基础模型家族，基于 LFM2架构，专注于边缘设备和本地部署。该模型家族包括 LFM2.5-1.2B-Base 和 LFM2.5-1

LFM2.5-1.2B-JP 边缘计算能力本地部署 LFM2.5-1.2B-Instruct 多模态

查看详情

字节跳动开源UI-TARS-1.5 多模态代理在GUI及游戏领域创SOTA佳绩

字节跳动开源UI-TARS-1.5 多模态代理在GUI及游戏领域创SOTA佳绩

AI妹 5 个月前 15 0

バイトダンスのDoubao大規模言語モデルチームは、視覚言語モデルに基づいたオープンソースのマルチモーダルエージェントであるUI-TARS-1.5のオープンソース化を発表しました。これは、仮想世界

System2推理机制多模态代理统一行动建模 MineRL任务 GUI操作

查看详情

字节跳动开源UI-TARS-1.5多模态智能体跨GUI与游戏任务获SOTA并展长程推理

字节跳动开源UI-TARS-1.5多模态智能体跨GUI与游戏任务获SOTA并展长程推理

AI妹 5 个月前 16 0

ByteDance's Doubao large model team announced the open-source release of UI-TARS-1.5, a multi-moda

长期推理能力 Minecraft System 2推理机制原生agent模型开源地址

查看详情

字节跳动发布UI-TARS-1.5开源多模态代理，智能跨平台GUI自动化兼具自我优化

字节跳动发布UI-TARS-1.5开源多模态代理，智能跨平台GUI自动化兼具自我优化

AI妹 5 个月前 17 0

字节跳动在Hugging Face平台正式发布了UI-TARS-1.5，一款基于强大视觉语言模型构建的开源多模态代理。这一发布标志着字节跳动在AI自动化交互领域的又一重大突破，为开发者与用户提供了

GitHub 短期与长期记忆 vLLM框架开源端到端架构

查看详情

字节跳动开源UI-TARS-1.5 多模态代理助力跨平台GUI自动化

字节跳动开源UI-TARS-1.5 多模态代理助力跨平台GUI自动化

AI妹 5 个月前 15 0

バイトダンスはHugging Faceプラットフォーム上で、強力なビジョン言語モデルに基づいて構築されたオープンソースのマルチモーダルエージェントであるUI-TARS-1.5を正式にリリースしまし

GitHub 开源多模态识别自然语言操作 GUI自动化

查看详情

苹果发布FastVLM：高分辨率优化新视觉语言模型移动端高效运行提速85倍

苹果发布FastVLM：高分辨率优化新视觉语言模型移动端高效运行提速85倍

AI妹 5 个月前 18 0

苹果正式发布FastVLM，一款专为高分辨率图像处理优化的视觉语言模型（VLM），以其在iPhone等移动设备上的高效运行能力和卓越性能引发行业热议。FastVLM通过创新的FastViTHD视觉

医疗影像分析 A18芯片视觉语言模型层次化令牌压缩苹果

查看详情

苹果发布FastVLM高效模型：高分辨率视觉语言处理快85倍且性能优异

苹果发布FastVLM高效模型：高分辨率视觉语言处理快85倍且性能优异

AI妹 5 个月前 13 0

苹果最近又搞了个大新闻，偷偷摸摸地发布了一个叫 FastVLM 的模型。听名字可能有点懵，但简单来说，这玩意儿就是让你的 iPhone 瞬间拥有了“火眼金睛”，不仅能看懂图片里的各种复杂信息，还能

项目地址论文地址 DocVQA LLM GQA

查看详情

1



资讯姬

文章数量13527

总阅读量228.449k

总评论量0

会员数量2

本站由emlog驱动