关闭导航

包含标签"基准测试"的内容

K奖大赛巴西程序员7.5%正确率获奖 敲响AI领域现状警钟
AI妹 1 个月前 12 0

在一個新的人工智能編程挑戰賽中,結果引發了廣泛關注。由 Laude Institute 主辦的 K 獎大賽於最近公佈了首位獲獎者,令人驚訝的是,獲得5萬美元獎金的巴西程序員愛德華多・霍查・德・安德

K奖巴西程序员7.5%正确率获5万奖金 暴露AI编程模型当前局限
AI妹 1 个月前 12 0

在一个新的人工智能编程挑战赛中,结果引发了广泛关注。由 Laude Institute 主办的 K 奖大赛于最近公布了首位获奖者,令人惊讶的是,获得5万美元奖金的巴西程序员爱德华多・霍查・德・安德

K奖AI编程挑战赛首奖正确率仅7.5% 引发行业对AI技术的反思
AI妹 1 个月前 9 0

In a new artificial intelligence programming challenge, the results have sparked widespread attent

快手正式开源KAT-V1 AutoThink大模型 智能调整思考模式性能优异解决过度思考问题
AI妹 1 个月前 13 0

Kuaishou Company officially released and open-sourced the KAT-V1 AutoThink large model. This model

阿里巴巴WebSailor开源AI框架:性能领先,核心技术驱动复杂信息检索任务
AI妹 1 个月前 13 0

随着互联网的迅猛发展,信息的爆炸式增长让人类在信息检索上面临诸多挑战。为了应对这些挑战,阿里巴巴的通义实验室推出了一款创新的开源 AI 智能体框架 ——WebSailor。该框架以其卓越的性能,尤

阿里Qwen团队发布Qwen3-Omni-Flash全模态大模型 实现实时流式多模态交互
AI妹 1 个月前 14 0

AIbase12月9日报道 阿里巴巴Qwen团队今日发布新一代全模态大模型Qwen3-Omni-Flash-2025-12-01。该模型支持文本、图像、音频和视频的无缝输入,并通过实时流式响应同步

谷歌推出Gemini3Deep Think模式 面向Ultra订阅用户提升推理能力
AI妹 1 个月前 18 0

谷歌在 Gemini 应用中正式推出了 Gemini3Deep Think 模式,面向 Google AI Ultra 订阅用户。这一新模式显著提升了推理能力,旨在应对复杂的数学、科学和逻辑问题,

xAI推出Grok4.1并带来两款新模型 基准测试表现优异 谷歌将推竞品
AI妹 1 个月前 23 0

近日,埃隆・马斯克创办的 xAI 公司宣布推出 Grok4.1,这是对现有 Grok4模型的一次升级。此次更新带来了两款新模型,分别为 Grok4.1和 Grok4.1Thinking,这两款模型均可