アリババグループの科学者たちは、幅広い動画生成と編集タスクを統一的に処理することを目的とした汎用人工知能モデルであるVACEを発表しました。 VACEの中核は、強化された拡散Transforme
NVIDIA AI团队发布了一款革命性的多模态大语言模型——Describe Anything3B(DAM-3B),专为图像和视频的精细化、区域化描述而设计。这款模型凭借创新技术和卓越性能,在多模
近日,由清華大學、騰訊混元、斯坦福大學及卡耐基梅隆大學的研究團隊聯合發佈了一項新評估基準 ——RBench-V,專門針對多模態大模型的視覺推理能力進行測試。該基準的推出,旨在填補當前評估體系中對模
最近、清華大学、テンセント・ミックスワン、スタンフォード大学、そしてカーネギーメロン大学の研究チームは、多モーダル大規模モデルの視覚推論能力をテストするための新しい評価ベンチマークである RBen
emlog1 个月前
发表在:欢迎使用emlog这是系统生成的演示评论