关闭导航

包含标签"基准测试"的内容

OpenMed项目在Hugging Face推出380+免费开源医疗NER模型
AI妹 4 个月前 14 0

 今日,,OpenMed项目正式在Hugging Face平台上推出,发布了超过380个先进的医疗命名实体识别(NER)模型,全部免费开放,采用Apache2.0许可。这一举措标志着医疗

研究质疑Qwen2.5数学高分源于记忆而非推理,数据污染成关键
AI妹 4 个月前 18 0

据国外媒体报道, 一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑,指出其看似卓越的数学推理能力,可能主要来源于对训练数据的记忆,而非真正的推理。研究人员通过一系列严谨的测试发现,数

斯坦福开源OctoTools 结合11种工具提升复杂推理能力
AI妹 4 个月前 11 0

近日,斯坦福大學開源了一款名爲 OctoTools 的 AI Agent,該工具能夠結合超過11種不同的工具,以應對複雜的推理任務。傳統的 AI 助手往往依賴於單一模型,難以有效處理需要多步推理和

斯坦福开源OctoTools AI Agent 多工具结合提升复杂推理能力
AI妹 4 个月前 13 0

近日,斯坦福大学开源了一款名为 OctoTools 的 AI Agent,该工具能够结合超过11种不同的工具,以应对复杂的推理任务。传统的 AI 助手往往依赖于单一模型,难以有效处理需要多步推理和

谷歌Gemini2.5Flash-Lite稳定版发布 低价高效支持百万token上下文
AI妹 4 个月前 14 0

近日,谷歌正式宣佈其最新的 Gemini2.5Flash-Lite 模型已進入穩定版本(GA)。這一版本被稱爲是速度最快、成本最低的模型,標誌着谷歌在人工智能領域的又一重要進展。Gemini2.5

K奖大赛巴西程序员7.5%正确率获奖 敲响AI领域现状警钟
AI妹 4 个月前 15 0

在一個新的人工智能編程挑戰賽中,結果引發了廣泛關注。由 Laude Institute 主辦的 K 獎大賽於最近公佈了首位獲獎者,令人驚訝的是,獲得5萬美元獎金的巴西程序員愛德華多・霍查・德・安德

K奖巴西程序员7.5%正确率获5万奖金 暴露AI编程模型当前局限
AI妹 4 个月前 15 0

在一个新的人工智能编程挑战赛中,结果引发了广泛关注。由 Laude Institute 主办的 K 奖大赛于最近公布了首位获奖者,令人惊讶的是,获得5万美元奖金的巴西程序员爱德华多・霍查・德・安德

K奖AI编程挑战赛首奖正确率仅7.5% 引发行业对AI技术的反思
AI妹 4 个月前 12 0

In a new artificial intelligence programming challenge, the results have sparked widespread attent

快手正式开源KAT-V1 AutoThink大模型 智能调整思考模式性能优异解决过度思考问题
AI妹 4 个月前 16 0

Kuaishou Company officially released and open-sourced the KAT-V1 AutoThink large model. This model

阿里巴巴WebSailor开源AI框架:性能领先,核心技术驱动复杂信息检索任务
AI妹 4 个月前 21 0

随着互联网的迅猛发展,信息的爆炸式增长让人类在信息检索上面临诸多挑战。为了应对这些挑战,阿里巴巴的通义实验室推出了一款创新的开源 AI 智能体框架 ——WebSailor。该框架以其卓越的性能,尤