关闭导航

包含标签"AI基准测试"的内容

Chatbot Arena成立新公司 旨在获资源提升AI测试平台并保持中立
AI妹 1 个月前 8 0

在 AI 行业快速发展的背景下,Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力,正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的

OpenAI o3模型基准测试引发争议 独立测试得分远低于官方宣称
AI妹 1 个月前 8 0

近日,OpenAI 推出的 o3人工智能模型在基准测试中的表现引发了广泛争议。尽管 OpenAI 在去年12月首次发布 o3时自信地宣称该模型在极具挑战性的 FrontierMath 数学问题集上

OpenAI o3模型独立测试正解率仅10% 远低于自身宣称的25%
AI妹 1 个月前 9 0

最近、OpenAIが発表したo3人工知能モデルのベンチマークテストの結果が、広く議論を呼んでいます。OpenAIは昨年12月にo3を初めて発表した際、非常に難しいFrontierMath数学問題集

谷歌Kaggle Game Arena首届AI国际象棋锦标赛8大顶尖模型对决
AI妹 1 个月前 8 0

一场前所未有的AI智力对决即将拉开帷幕。8月5日至7日,谷歌全新推出的Kaggle Game Arena将举办首届AI国际象棋锦标赛,8款当今最先进的大语言模型将在64格棋盘上展开激烈角逐,这场比