关闭导航

包含标签"数据补全"的内容

北大开源One-Eval评测框架 破解大模型核心评测困局促行业范式效率升级
AI妹 1 个月前 2 0

DeepSeek-V4 发布仅 10 小时,北京大学DCAI团队便火速出炉了一份全量自动化评测报告。这一速度在AI工程界引发了广泛关注,其核心推手是北大最新开源的评测框架——One-Eval。