关闭导航

包含标签"Claude3.5 Sonnet"的内容

人类终极考试HLE:最新一代AI如GPT-4o面对专业难题真实能力不足
AI妹 2 个月前 69 0

最近一项名为 “人类终极考试”(HLE)的测试结果让我们重新审视 AI 的真实能力。根据《自然》杂志的报道,GPT-4o 在这 2500 道由全球专家出题的测试中,仅获得了可怜的 2.7 分(满分