关闭导航

包含标签"VQA"的内容

CameraBench:赋能AI精准理解镜头运动的创新研究成果
AI妹 1 个月前 11 0

咱们天天聊 AI 多牛逼,能写诗、能画画、还能跟你唠嗑到天亮。但你有没有想过,当 AI 看视频的时候,它真的“看懂”了吗? 你可能会说:“当然了,都能识别猫猫狗狗、人山人海了!” 打住!识别物

AI镜头运动理解有新招!CameraBench数据集显威力
AI妹 1 个月前 9 0

咱們天天聊 AI 多牛逼,能寫詩、能畫畫、還能跟你嘮嗑到天亮。但你有沒有想過,當 AI 看視頻的時候,它真的“看懂”了嗎? 你可能會說:“當然了,都能識別貓貓狗狗、人山人海了!” 打住!識別物

首个视觉语言模型统一基准IDP Leaderboard发布 评估多模型揭示文档处理挑战
AI妹 1 个月前 10 0

5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、

Meta携手港中文推出Multi-SpatialMLLM模型 大幅提升空间理解能力
AI妹 1 个月前 6 0

科技巨頭 Meta 與香港中文大學的研究團隊聯合推出了 Multi-SpatialMLLM 模型,這一新框架在多模態大語言模型(MLLMs)的發展中取得了顯著進展,尤其是在空間理解方面。該模型通過