从早期的ImageNet分类到如今的扩散模型,计算机视觉在过去十年间一直致力于让机器“看清世界”。然而,当感知能力接近人类极限,单纯追求准确率的边际收益正在递减。在CVPR2026上,视觉智能的研
微软近日正式开源了其最新研发的多模态推理模型 Phi-4-reasoning-vision-15B。该模型凭借15B 的参数规模,在保持轻量化的同时,实现了高性能与低成本的理想平衡,为资源受限环境
現在的大模型(LLMs)已經非常智能。寫文章、編代碼、當醫生、當老師,樣樣精通。於是乎,有人就想了:既然它們這麼聰明,能不能讓它們自己做決定,當個“智能體”呢?比如,在複雜的環境裏自己探索、自己解
字節跳動Seed團隊在Hugging Face平臺重磅發佈BAGEL,一款基於混合專家(MoE)架構的開源多模態基礎模型,擁有14億總參數和7億活躍參數。BAGEL在數萬億token的交錯多模態數