VLM - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"VLM"的内容

Mininglamp开源Cider与Mano-P，构建Mac本地AI完整基础设施

Mininglamp开源Cider与Mano-P，构建Mac本地AI完整基础设施

AI妹 1 个月前 2 0

近日，Mininglamp 开源了两个重量级本地 AI 项目——Cider 和 Mano-P，分别针对 Mac 端侧推理加速和 GUI 智能体操作两大痛点，为用户打造一套完整的本地 AI 基础设施

GUI-VLA Agent Mininglamp 跨系统数据整合 LLM INT8TensorOps

查看详情

腾讯混元发布开源HY-World2.0 实现可交互3D资产生成新突破

腾讯混元发布开源HY-World2.0 实现可交互3D资产生成新突破

AI妹 1 个月前 4 0

腾讯混元团队今日宣布正式发布并开源“混元3D 世界模型2.0”（HY-World2.0）。作为多模态世界模型的重大升级，该版本实现了从单纯生成视频向生成“可交互、可编辑3D 资产”的跨越。模型支持

点云腾讯混元团队 3DGS Mesh SOTA级空间一致性记忆机制

查看详情

CameraBench：赋能AI精准理解镜头运动的创新研究成果

CameraBench：赋能AI精准理解镜头运动的创新研究成果

AI妹 5 个月前 19 0

咱们天天聊 AI 多牛逼，能写诗、能画画、还能跟你唠嗑到天亮。但你有没有想过，当 AI 看视频的时候，它真的“看懂”了吗? 你可能会说:“当然了，都能识别猫猫狗狗、人山人海了!” 打住!识别物

视频语言模型 3D重建视频描述生成 SFT VQA

查看详情

AI镜头运动理解有新招！CameraBench数据集显威力

AI镜头运动理解有新招！CameraBench数据集显威力

AI妹 5 个月前 18 0

咱們天天聊 AI 多牛逼，能寫詩、能畫畫、還能跟你嘮嗑到天亮。但你有沒有想過，當 AI 看視頻的時候，它真的“看懂”了嗎? 你可能會說:“當然了，都能識別貓貓狗狗、人山人海了!” 打住!識別物

视频描述生成电影 Arcing/Orbiting Pan Vlog

查看详情

苹果发布FastVLM：高分辨率优化新视觉语言模型移动端高效运行提速85倍

苹果发布FastVLM：高分辨率优化新视觉语言模型移动端高效运行提速85倍

AI妹 5 个月前 19 0

苹果正式发布FastVLM，一款专为高分辨率图像处理优化的视觉语言模型（VLM），以其在iPhone等移动设备上的高效运行能力和卓越性能引发行业热议。FastVLM通过创新的FastViTHD视觉

MLX框架 Hugging Face 医疗影像分析 CoreML VLM

查看详情

新規3D視覚言語モデル3D-R1の技術創新と性能向上成果が発表される

新規3D視覚言語モデル3D-R1の技術創新と性能向上成果が発表される

AI妹 5 个月前 17 0

人工知能分野において、視覚言語モデル（VLM）は近年顕著な進展を遂げており、特に2次元の視覚理解においては大きな成果を収めています。この分野がさらに発展するにつれて、研究者たちは3Dシ

3D-R1 VLM 合成数据集强化学习 3D场景理解

查看详情

腾讯AI Lab开源Cognitive Kernel-Pro框架减依赖GAIA测试优SmolAgents近付费工具

腾讯AI Lab开源Cognitive Kernel-Pro框架减依赖GAIA测试优SmolAgents近付费工具

AI妹 5 个月前 22 0

大規模言語モデル（LLM）や視覚-言語モデル（VLM）の急速な発展に伴い、エージェントは知識の発見や問題解決の方法において革命的な変化を遂げています。しかし、多くの既存のオープンソースエージェント

サブエージェント GAIAベンチマーク Agent Foundation Modelトレーニングレシピ VLM 腾讯AIラボ

查看详情

澳大利亚AEHRC用VLM模型辅助胸部X光分析减轻医生负担提升报告准确性

澳大利亚AEHRC用VLM模型辅助胸部X光分析减轻医生负担提升报告准确性

AI妹 5 个月前 16 0

随着人工智能（AI）技术的不断发展，越来越多的澳大利亚人开始在日常生活中使用 AI。CSIRO(联邦科学与工业研究组织)下属的澳大利亚电子健康研究中心(AEHRC)正在积极探索如何将 AI 应用于

AI支持医疗人员澳大利亚电子健康研究中心 VLM AEHRC 人工智能

查看详情

字节跳动发布70亿参数开源多模态模型BAGEL 性能超主流VLM生成能力强

字节跳动发布70亿参数开源多模态模型BAGEL 性能超主流VLM生成能力强

AI妹 5 个月前 18 0

字節跳動は最近、最新のオープンソース多モーダル基礎モデルである「BAGEL（Big Advanced Generalized Embodied Learner）」を正式に発表しました。70億個の有

Qwen2.5-VL GitHub 世界建模 BAGEL VLM

查看详情



资讯姬

文章数量13533

总阅读量232.256k

总评论量0

会员数量2

本站由emlog驱动