基准测试 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"基准测试"的内容

OpenAI打破非开源主义发布两款GPT-oss开源语言模型

OpenAI打破非开源主义发布两款GPT-oss开源语言模型

AI妹 5 个月前 14 0

OpenAIは2020年以来の非開源主義を打ち破り、正式に2つのオープンソース言語モデルであるGPT-oss-120bとGPT-oss-20bをリリースしました。この取り組みは、このAI大手がビジ

GPT-OSS-20B 开发者平台推理能力基准测试 Apache 2.0许可证

查看详情

英伟达发布Cosmos-Reason1系列模型提升AI物理推理及具身能力

英伟达发布Cosmos-Reason1系列模型提升AI物理推理及具身能力

AI妹 5 个月前 18 0

近日，英偉達發佈了其最新的 Cosmos-Reason1系列模型，旨在提升人工智能在物理常識和具身推理方面的能力。隨着人工智能在語言處理、數學及代碼生成等領域取得顯著進展，如何將這些能力擴展到物理

英伟达双本体系统基准测试物理常识监督微调

查看详情

英伟达Cosmos-Reason1模型增强AI物理与具身推理

英伟达Cosmos-Reason1模型增强AI物理与具身推理

AI妹 5 个月前 22 0

近日，英伟达发布了其最新的 Cosmos-Reason1系列模型，旨在提升人工智能在物理常识和具身推理方面的能力。随着人工智能在语言处理、数学及代码生成等领域取得显著进展，如何将这些能力扩展到物理

仅解码器大型语言模型监督微调视觉编码器双本体系统物理AI

查看详情

红杉中国推出xbench AI基准测试工具动态更新保障评估公正

红杉中国推出xbench AI基准测试工具动态更新保障评估公正

AI妹 5 个月前 18 0

随着人工智能技术的迅速发展，尤其是大型模型的不断进步，基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状，红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbenc

AGI 大型模型多模态模型 GUI智能体垂直领域智能体

查看详情

OpenMed项目在Hugging Face推出380+免费开源医疗NER模型

OpenMed项目在Hugging Face推出380+免费开源医疗NER模型

AI妹 5 个月前 17 0

今日，，OpenMed项目正式在Hugging Face平台上推出，发布了超过380个先进的医疗命名实体识别（NER）模型，全部免费开放，采用Apache2.0许可。这一举措标志着医疗

开源医疗慢性病负担 Apache2.0许可 PyTorch生态系统参数规模

查看详情

研究质疑Qwen2.5数学高分源于记忆而非推理，数据污染成关键

研究质疑Qwen2.5数学高分源于记忆而非推理，数据污染成关键

AI妹 5 个月前 21 0

据国外媒体报道，一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑，指出其看似卓越的数学推理能力，可能主要来源于对训练数据的记忆，而非真正的推理。研究人员通过一系列严谨的测试发现，数

Llama3.1-8B 干净基准 Qwen2.5 阿里巴巴基准测试

查看详情

斯坦福开源OctoTools 结合11种工具提升复杂推理能力

斯坦福开源OctoTools 结合11种工具提升复杂推理能力

AI妹 5 个月前 14 0

近日，斯坦福大學開源了一款名爲 OctoTools 的 AI Agent，該工具能夠結合超過11種不同的工具，以應對複雜的推理任務。傳統的 AI 助手往往依賴於單一模型，難以有效處理需要多步推理和

OctoTools AI Agent 斯坦福大学准确率高执行器

查看详情

斯坦福开源OctoTools AI Agent 多工具结合提升复杂推理能力

斯坦福开源OctoTools AI Agent 多工具结合提升复杂推理能力

AI妹 5 个月前 16 0

近日，斯坦福大学开源了一款名为 OctoTools 的 AI Agent，该工具能够结合超过11种不同的工具，以应对复杂的推理任务。传统的 AI 助手往往依赖于单一模型，难以有效处理需要多步推理和

OctoTools 分离设计工具卡片视觉谜题上下文验证器

查看详情

谷歌Gemini2.5Flash-Lite稳定版发布低价高效支持百万token上下文

谷歌Gemini2.5Flash-Lite稳定版发布低价高效支持百万token上下文

AI妹 5 个月前 17 0

近日，谷歌正式宣佈其最新的 Gemini2.5Flash-Lite 模型已進入穩定版本（GA）。這一版本被稱爲是速度最快、成本最低的模型，標誌着谷歌在人工智能領域的又一重要進展。Gemini2.5

开发者使用预览版别名移除(8月25日) 定价策略基准测试多模态理解

查看详情

K奖大赛巴西程序员7.5%正确率获奖敲响AI领域现状警钟

K奖大赛巴西程序员7.5%正确率获奖敲响AI领域现状警钟

AI妹 5 个月前 18 0

在一個新的人工智能編程挑戰賽中，結果引發了廣泛關注。由 Laude Institute 主辦的 K 獎大賽於最近公佈了首位獲獎者，令人驚訝的是，獲得5萬美元獎金的巴西程序員愛德華多・霍查・德・安德

AI模型 Sayash Kapoor SWE-bench K奖大赛 Andy Konwinski

查看详情

4



资讯姬

文章数量13557

总阅读量242.561k

总评论量0

会员数量2

本站由emlog驱动