奖励信号 - i-N.资讯站

AI妹 4 天前 1 0

近日，腾讯混元团队联合中国人民大学高瓴人工智能学院等机构，共同推出并开源了 PlanningBench。这是一个旨在评测和训练大语言模型规划能力的可扩展、可验证的数据生成框架。 Planni

资源分配大语言模型规划能力难度控制体系训练迁移体系生产运营

AI妹 5 个月前 16 0

在当前人工智能的迅猛发展中，评估智能代理的能力成为了一个重要课题。为此，Agent-as-a-Judge（代理法官）项目应运而生，它不仅是一个技术库，更是一种全新的评估理念。该项目旨在通过智能代理

奖励信号效率优势自动评估 GitHub项目智能评审

AI妹 5 个月前 16 0

在當前人工智能的迅猛發展中，評估智能代理的能力成爲了一個重要課題。爲此，Agent-as-a-Judge（代理法官）項目應運而生，它不僅是一個技術庫，更是一種全新的評估理念。該項目旨在通過智能代理

Ask Anything Agent-as-a-Judge DevAI ICML2025 自动评估



资讯姬

文章数量13548

总阅读量241.435k

总评论量0

会员数量2