VQA - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"VQA"的内容

CameraBench：赋能AI精准理解镜头运动的创新研究成果

CameraBench：赋能AI精准理解镜头运动的创新研究成果

AI妹 5 个月前 19 0

咱们天天聊 AI 多牛逼，能写诗、能画画、还能跟你唠嗑到天亮。但你有没有想过，当 AI 看视频的时候，它真的“看懂”了吗? 你可能会说:“当然了，都能识别猫猫狗狗、人山人海了!” 打住!识别物

视频描述生成视频问答 CameraBench数据集 3D重建 VQA

查看详情

AI镜头运动理解有新招！CameraBench数据集显威力

AI镜头运动理解有新招！CameraBench数据集显威力

AI妹 5 个月前 18 0

咱們天天聊 AI 多牛逼，能寫詩、能畫畫、還能跟你嘮嗑到天亮。但你有沒有想過，當 AI 看視頻的時候，它真的“看懂”了嗎? 你可能會說:“當然了，都能識別貓貓狗狗、人山人海了!” 打住!識別物

视频文本检索动态场景 Gemini 广告 GPT-4o

查看详情

首个视觉语言模型统一基准IDP Leaderboard发布评估多模型揭示文档处理挑战

首个视觉语言模型统一基准IDP Leaderboard发布评估多模型揭示文档处理挑战

AI妹 5 个月前 16 0

5月11日，智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档，全面评估了当前主流模型在OCR、

ChartQA 视觉问答 OCR IDP Leaderboard GPT-4o-mini

查看详情

Meta携手港中文推出Multi-SpatialMLLM模型大幅提升空间理解能力

Meta携手港中文推出Multi-SpatialMLLM模型大幅提升空间理解能力

AI妹 5 个月前 14 0

科技巨頭 Meta 與香港中文大學的研究團隊聯合推出了 Multi-SpatialMLLM 模型，這一新框架在多模態大語言模型（MLLMs）的發展中取得了顯著進展，尤其是在空間理解方面。該模型通過

MultiSPA基准测试空间理解 3D场景 4D场景 VQA

查看详情



资讯姬

文章数量13533

总阅读量232.256k

总评论量0

会员数量2

本站由emlog驱动