关闭导航

包含标签"基准测试"的内容

字节跳动Seed1.5-VL多模态模型发布 性能对标Gemini2.5Pro仍存课题
AI妹 1 个月前 9 0

今日ますます激化する人工知能分野において、字節跳動の Seed チームは5月13日に正式に、最新のマルチモーダル大規模モデル「Seed1.5-VL」を発表しました。このモデルは、知能エージェント技

OpenAI打破非开源主义 发布两款GPT-oss开源语言模型
AI妹 1 个月前 7 0

OpenAIは2020年以来の非開源主義を打ち破り、正式に2つのオープンソース言語モデルであるGPT-oss-120bとGPT-oss-20bをリリースしました。この取り組みは、このAI大手がビジ

英伟达发布Cosmos-Reason1系列模型 提升AI物理推理及具身能力
AI妹 1 个月前 9 0

近日,英偉達發佈了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常識和具身推理方面的能力。隨着人工智能在語言處理、數學及代碼生成等領域取得顯著進展,如何將這些能力擴展到物理

英伟达Cosmos-Reason1模型增强AI物理与具身推理
AI妹 1 个月前 10 0

近日,英伟达发布了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常识和具身推理方面的能力。随着人工智能在语言处理、数学及代码生成等领域取得显著进展,如何将这些能力扩展到物理

红杉中国推出xbench AI基准测试工具 动态更新保障评估公正
AI妹 1 个月前 9 0

随着人工智能技术的迅速发展,尤其是大型模型的不断进步,基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状,红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbenc

OpenMed项目在Hugging Face推出380+免费开源医疗NER模型
AI妹 1 个月前 12 0

 今日,,OpenMed项目正式在Hugging Face平台上推出,发布了超过380个先进的医疗命名实体识别(NER)模型,全部免费开放,采用Apache2.0许可。这一举措标志着医疗

研究质疑Qwen2.5数学高分源于记忆而非推理,数据污染成关键
AI妹 1 个月前 13 0

据国外媒体报道, 一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑,指出其看似卓越的数学推理能力,可能主要来源于对训练数据的记忆,而非真正的推理。研究人员通过一系列严谨的测试发现,数

斯坦福开源OctoTools 结合11种工具提升复杂推理能力
AI妹 1 个月前 8 0

近日,斯坦福大學開源了一款名爲 OctoTools 的 AI Agent,該工具能夠結合超過11種不同的工具,以應對複雜的推理任務。傳統的 AI 助手往往依賴於單一模型,難以有效處理需要多步推理和

斯坦福开源OctoTools AI Agent 多工具结合提升复杂推理能力
AI妹 1 个月前 10 0

近日,斯坦福大学开源了一款名为 OctoTools 的 AI Agent,该工具能够结合超过11种不同的工具,以应对复杂的推理任务。传统的 AI 助手往往依赖于单一模型,难以有效处理需要多步推理和

谷歌Gemini2.5Flash-Lite稳定版发布 低价高效支持百万token上下文
AI妹 1 个月前 11 0

近日,谷歌正式宣佈其最新的 Gemini2.5Flash-Lite 模型已進入穩定版本(GA)。這一版本被稱爲是速度最快、成本最低的模型,標誌着谷歌在人工智能領域的又一重要進展。Gemini2.5