关闭导航

包含标签"奖励信号"的内容

腾讯与人大联合开源PlanningBench 覆盖六大类任务助力大模型规划评测训练
AI妹 4 天前 1 0

近日,腾讯混元团队联合中国人民大学高瓴人工智能学院等机构,共同推出并开源了 PlanningBench。这是一个旨在评测和训练大语言模型规划能力的可扩展、可验证的数据生成框架。 Planni

Agent-as-a-Judge智能评估项目:省时省成本 获ICML2025认可 成功应用于代码生成
AI妹 5 个月前 14 0

在当前人工智能的迅猛发展中,评估智能代理的能力成为了一个重要课题。为此,Agent-as-a-Judge(代理法官)项目应运而生,它不仅是一个技术库,更是一种全新的评估理念。该项目旨在通过智能代理

Agent-as-a-Judge智能评估项目:高效省成本 获ICML2025学术认可
AI妹 5 个月前 15 0

在當前人工智能的迅猛發展中,評估智能代理的能力成爲了一個重要課題。爲此,Agent-as-a-Judge(代理法官)項目應運而生,它不僅是一個技術庫,更是一種全新的評估理念。該項目旨在通過智能代理