视觉问答 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"视觉问答"的内容

微软Fara1.5智能体：浏览器场景表现优异安全隐私有保障

微软Fara1.5智能体：浏览器场景表现优异安全隐私有保障

AI妹 16 天前 1 0

在人工智能领域，微软研究院 AI Frontiers 实验室近日发布了全新的 Fara1.5系列智能体模型。这一系列专为浏览器场景设计，旨在提升计算机使用的智能化水平。Fara1.5系列涵盖了三个

4B OpenAI Operator Fara1.5系列智能体模型用户交互合成环境

查看详情

Meta推出WebSSL纯视觉自监督模型无语言监督性能优异展潜力

Meta推出WebSSL纯视觉自监督模型无语言监督性能优异展潜力

AI妹 5 个月前 17 0

在人工智能領域，Meta 公司最近推出了 WebSSL 系列模型，這一系列模型的參數規模從3億到70億不等，基於純圖像數據進行訓練，旨在探索無語言監督的視覺自監督學習（SSL）的巨大潛力。這一新研

纯图像数据训练 MAE 多模态任务 LLaMA-3 WebSSL系列模型

查看详情

首个IDP Leaderboard基准正式发布主流模型智能文档处理能力全面评估

首个IDP Leaderboard基准正式发布主流模型智能文档处理能力全面评估

AI妹 5 个月前 17 0

5月11日，智能文檔處理領域迎來重大進展——首個針對視覺-語言模型的統一基準測試"IDP Leaderboard"正式推出。該基準通過16個數據集、9229份文檔，全面評估了當前主流模型在OCR、

GitHub 视觉-语言模型企业自动化 IDP Leaderboard 智能文档处理

查看详情

首个视觉语言模型统一基准IDP Leaderboard发布评估多模型揭示文档处理挑战

首个视觉语言模型统一基准IDP Leaderboard发布评估多模型揭示文档处理挑战

AI妹 5 个月前 17 0

5月11日，智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档，全面评估了当前主流模型在OCR、

视觉-语言模型视觉问答多模态AI 精确匹配准确率 GitHub

查看详情

SmolVLM多模态模型利用WebGPU实现浏览器实时摄像头本地化推理突破

SmolVLM多模态模型利用WebGPU实现浏览器实时摄像头本地化推理突破

AI妹 5 个月前 21 0

Hugging Face推出的SmolVLM多模態模型迎來重大突破:通過WebGPU技術，SmolVLM現可在瀏覽器中實現實時網絡攝像頭圖像識別，無需服務器支持，全部計算在用戶設備上完成。這一創新

AI内存占用 AI部署革命模型内存占用优化 AI未来展望 AI图像分析

查看详情

SmolVLM依托WebGPU实现浏览器摄像头实时本地推理隐私有保障

SmolVLM依托WebGPU实现浏览器摄像头实时本地推理隐私有保障

AI妹 5 个月前 18 0

A major breakthrough has been achieved by SmolVLM, a multimodal model introduced by Hugging Face:

Chrome 113+ 教育工具零数据传输 4/8位量化图像描述

查看详情

Salesforce BLIP3-o全开源多模态模型Hugging Face发布技术突破引行业热议

Salesforce BLIP3-o全开源多模态模型Hugging Face发布技术突破引行业热议

AI妹 5 个月前 16 0

Salesforce AI Research在Hugging Face平臺正式發佈BLIP3-o應用，這款全開源的統一多模態模型家族以其卓越的圖像理解與生成能力引發業界熱議。BLIP3-o通過創新

文本到图像生成视觉问答 BLIP-2 GPT-4o Creative Commons Attribution Non Commercial4.0许可证

查看详情

Salesforce BLIP3-o全开源统一多模态模型Hugging Face发布引业界热议

Salesforce BLIP3-o全开源统一多模态模型Hugging Face发布引业界热议

AI妹 5 个月前 14 0

Salesforce AI Research在Hugging Face平台正式发布BLIP3-o应用，这款全开源的统一多模态模型家族以其卓越的图像理解与生成能力引发业界热议。BLIP3-o通过创新

全开源 BLIP3-o 图像描述 CLIP图像特征 Gradio演示

查看详情

Salesforce BLIP3-o全开源统一多模态模型于Hugging Face平台正式发布

Salesforce BLIP3-o全开源统一多模态模型于Hugging Face平台正式发布

AI妹 5 个月前 19 0

Salesforce AI Research has officially released BLIP3-o on the Hugging Face platform, a fully open-

文本密集图像扩散Transformer BLIP3-o Salesforce AI Research MiniMax

查看详情

Meta携手港中文推出Multi-SpatialMLLM模型大幅提升空间理解能力

Meta携手港中文推出Multi-SpatialMLLM模型大幅提升空间理解能力

AI妹 5 个月前 15 0

科技巨頭 Meta 與香港中文大學的研究團隊聯合推出了 Multi-SpatialMLLM 模型，這一新框架在多模態大語言模型（MLLMs）的發展中取得了顯著進展，尤其是在空間理解方面。該模型通過

空间理解 MultiSPA数据集视觉问答 4D场景 3D场景

查看详情

1



资讯姬

文章数量13543

总阅读量238.009k

总评论量0

会员数量2

本站由emlog驱动