关闭导航

包含标签"HLE"的内容

人类终极考试HLE:最新一代AI如GPT-4o面对专业难题真实能力不足
AI妹 2 个月前 69 0

最近一项名为 “人类终极考试”(HLE)的测试结果让我们重新审视 AI 的真实能力。根据《自然》杂志的报道,GPT-4o 在这 2500 道由全球专家出题的测试中,仅获得了可怜的 2.7 分(满分

月之暗面Kimi K2.5发布 技术革新 海外收入首超国内 全球化里程碑重大突破
AI妹 2 个月前 18 0

随着Kimi发布全新大模型 K2.5,月之暗面(Moonshot AI)正迎来其全球化进程的里程碑时刻。最新数据显示,该公司的海外收入已首次超越国内收入,标志着国产大模型在国际商业化舞台上取得重大

Zoom非自研联邦式AI破HLE世界纪录引争议,AI Companion3.0将迎实战考验
AI妹 2 个月前 15 0

 长期以来,大模型领域的华山论剑一直由谷歌、OpenAI 及 Anthropic 等实验室把持。然而,上周视频会议巨头 Zoom 投下了一枚震撼弹:其人工智能系统在被誉为“人类最后的考试

谷歌Gemini2.5Deep Think向AI Ultra用户开放 获IMO金牌并行思考技术领先
AI妹 3 个月前 14 0

近日,谷歌DeepMind宣布其最强大的AI模型Gemini2.5Deep Think正式向Google AI Ultra订阅用户开放。这一模型不仅在2025年国际数学奥林匹克(IMO)竞赛中摘得

上海交大与深势科技团队研发的X-Masters智能体在HLE考试中突破30分并开源
AI妹 3 个月前 13 0

在全球人工智能竞争日益激烈的背景下,上海交通大学与深势科技团队联手,成功在被称为 “人类最后的考试”(HLE)中取得了32.1分的惊人成绩,首次突破30分大关。这一测试集以其超高难度而闻名,曾经没

腾讯混元2.0发布:混合专家架构 长上下文 推理效率业界领先接入生态
AI妹 4 个月前 27 0

腾讯自研大模型混元2.0(Tencent HY2.0)正式发布,与此同时,DeepSeek V3.2也逐步接入腾讯生态。目前,这两大模型已在元宝、ima等腾讯AI原生应用中率先上线,腾讯云也同步开