HLE - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"HLE"的内容

人类终极考试HLE：最新一代AI如GPT-4o面对专业难题真实能力不足

人类终极考试HLE：最新一代AI如GPT-4o面对专业难题真实能力不足

AI妹 4 个月前 71 0

最近一项名为 “人类终极考试”（HLE）的测试结果让我们重新审视 AI 的真实能力。根据《自然》杂志的报道，GPT-4o 在这 2500 道由全球专家出题的测试中，仅获得了可怜的 2.7 分（满分

GPT-4o AI真实能力 o1 人类终极考试推理能力

查看详情

月之暗面Kimi K2.5发布技术革新海外收入首超国内全球化里程碑重大突破

月之暗面Kimi K2.5发布技术革新海外收入首超国内全球化里程碑重大突破

AI妹 4 个月前 21 0

随着Kimi发布全新大模型 K2.5，月之暗面（Moonshot AI）正迎来其全球化进程的里程碑时刻。最新数据显示，该公司的海外收入已首次超越国内收入，标志着国产大模型在国际商业化舞台上取得重大

Kimi Agent HLE K2.5 生产力引擎办公能力

查看详情

Zoom非自研联邦式AI破HLE世界纪录引争议，AI Companion3.0将迎实战考验

Zoom非自研联邦式AI破HLE世界纪录引争议，AI Companion3.0将迎实战考验

AI妹 4 个月前 18 0

长期以来，大模型领域的华山论剑一直由谷歌、OpenAI 及 Anthropic 等实验室把持。然而，上周视频会议巨头 Zoom 投下了一枚震撼弹:其人工智能系统在被誉为“人类最后的考试

探索-验证-联合策略流量控制器 Zoom 模型集成 OpenAI

查看详情

谷歌Gemini2.5Deep Think向AI Ultra用户开放获IMO金牌并行思考技术领先

谷歌Gemini2.5Deep Think向AI Ultra用户开放获IMO金牌并行思考技术领先

AI妹 5 个月前 16 0

近日，谷歌DeepMind宣布其最强大的AI模型Gemini2.5Deep Think正式向Google AI Ultra订阅用户开放。这一模型不仅在2025年国际数学奥林匹克（IMO）竞赛中摘得

多模态与长上下文支持跨领域知识谷歌搜索工具 IMO金牌并行思考机制

查看详情

上海交大与深势科技团队研发的X-Masters智能体在HLE考试中突破30分并开源

上海交大与深势科技团队研发的X-Masters智能体在HLE考试中突破30分并开源

AI妹 5 个月前 16 0

在全球人工智能竞争日益激烈的背景下，上海交通大学与深势科技团队联手，成功在被称为 “人类最后的考试”（HLE）中取得了32.1分的惊人成绩，首次突破30分大关。这一测试集以其超高难度而闻名，曾经没

HLE 深势科技团队工具增强型推理智能体 SciPy 开源

查看详情

腾讯混元2.0发布：混合专家架构长上下文推理效率业界领先接入生态

腾讯混元2.0发布：混合专家架构长上下文推理效率业界领先接入生态

AI妹 6 个月前 31 0

腾讯自研大模型混元2.0（Tencent HY2.0）正式发布，与此同时，DeepSeek V3.2也逐步接入腾讯生态。目前，这两大模型已在元宝、ima等腾讯AI原生应用中率先上线，腾讯云也同步开

指令遵循 HMMT2025 预训练数据 256K超长上下文窗口 IMO-AnswerBench

查看详情



资讯姬

文章数量13527

总阅读量227.016k

总评论量0

会员数量2

本站由emlog驱动