SWE-bench Verified - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"SWE-bench Verified"的内容

英伟达开源Polar框架助力代码智能体无缝接入GRPO强化学习并提升性能

英伟达开源Polar框架助力代码智能体无缝接入GRPO强化学习并提升性能

AI妹 12 天前 1 0

5月28日，英伟达（NVIDIA）研究团队正式开源了名为 Polar 的强化学习训练框架。该框架的核心创新在于，它能够让 Codex、Claude Code、Qwen Code 等现有主流代码智能

强化学习训练框架广义相对策略优化代码智能体模型API边界 Qwen3.5-4B

查看详情

英伟达发布开源框架Polar，大幅提升代码智能体性能与训练效率

英伟达发布开源框架Polar，大幅提升代码智能体性能与训练效率

AI妹 12 天前 1 0

英伟达研究团队近日发布了一个全新的开源 AI 框架 ——Polar。该框架旨在帮助现有的智能体框架（如 Codex、Claude Code、Qwen Code）接入一种名为广义相对策略优化（GRP

广义相对策略优化(GRPO) 智能体框架 Qwen Code 代码智能体 pass@1

查看详情

腾讯混元Hy3preview开源实用性强上下文推理智能体能力全面提升多业务接入

腾讯混元Hy3preview开源实用性强上下文推理智能体能力全面提升多业务接入

AI妹 1 个月前 3 0

4月23日，腾讯混元 Hy3preview 语言模型发布并开源。这是一个快慢思考融合的混合专家模型，总参数295B，激活参数21B，最大支持256K 上下文长度。这是混元重建后训练的第一个模型，也

295B总参数高性价比 WildClawBench CHSBO2025 清华数学博资考

查看详情

阿里云通义千问Qwen3.6-27B开源编程多模态能力大幅提升

阿里云通义千问Qwen3.6-27B开源编程多模态能力大幅提升

AI妹 1 个月前 2 0

4月22日，阿里云通义千问团队宣布其开源家族迎来重磅更新，正式发布270亿参数的稠密多模态模型——Qwen3.6-27B。作为开发者群体呼声最高的模型规格，该版本的出现不仅完善了Qwen系列的产品

稠密多模态模型 MoE模型 preserve_thinking功能 Qwen Code 编程能力

查看详情

月之暗面推出Kimi K2.6-code-preview 国产编程AI步入万亿参数时代

月之暗面推出Kimi K2.6-code-preview 国产编程AI步入万亿参数时代

AI妹 1 个月前 3 0

据报道，继 GLM-5.1和 MiniMax2.7之后，月之暗面正式推出了专为 AI 编程优化的万亿参数大模型 —— Kimi K2.6-code-p

月之暗面 Kimi Code 万亿参数大模型推理深度工具调用

查看详情

METR研究发现SWE-bench基准显著高估AI编程能力，人工评审采纳率差距明显

METR研究发现SWE-bench基准显著高估AI编程能力，人工评审采纳率差距明显

AI妹 2 个月前 4 0

研究机构 METR 最新发布的一项研究显示，被广泛用于评估 AI 编程能力的基准测试 SWE-bench Verified 可能显著高估了 AI 代理在真实软件开发环境中的表现。研究发现，在基准测

模型对比自动化评测 Claude3.7Sonnet 提示策略工程缺陷

查看详情

MiniMax2025年报：业绩狂飙战略跃迁市值暗礁与红利并存

MiniMax2025年报：业绩狂飙战略跃迁市值暗礁与红利并存

AI妹 3 个月前 5 0

2026年3月2日， MiniMax（上海稀宇科技）发布了其上市后的首份年度成绩单。这份报告不仅是数字的堆叠，更是对“AI 时代平台型公司”这一新叙事框架的实战推演。

全球化反向输出年内亏损 OpenAI 模型效率提升版权合规

查看详情

微软推送GPT-5.2：性能飞跃，Copilot迈入深度逻辑推理时代

微软推送GPT-5.2：性能飞跃，Copilot迈入深度逻辑推理时代

AI妹 5 个月前 16 0

| 微软今日宣布正式向网页、Windows 及移动端用户推送 OpenAI 迄今为止最强大的模型系列——GPT-5.2。作为一次极具诚意的免费升级，GPT-5.2将以“智能增强版”模式与现有的 G

AI竞赛 SWE-Bench Pro 图像分析 CharXiv推理微软

查看详情

OpenAI发布GPT-4.1系列模型性能超GPT-4o成本降效率提升

OpenAI发布GPT-4.1系列模型性能超GPT-4o成本降效率提升

AI妹 5 个月前 24 0

4月15日，OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型，涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。该系列在编程能力、指令理解及长文本

SWE-bench Verified MultiChallenge 100万tokens上下文窗口 Video-MME MMLU

查看详情

OpenAI发布GPT-4.1系列模型性能超GPT-4o仅向开发者开放

OpenAI发布GPT-4.1系列模型性能超GPT-4o仅向开发者开放

AI妹 5 个月前 20 0

4月15日、OpenAIは公式ブログでGPT-4.1シリーズモデルの正式リリースを発表しました。GPT-4.1、GPT-4.1mini、GPT-4.1nanoの3つのサブモデルが含まれています。こ

MultiChallenge API接口 Video-MME SWE-bench Verified 代码生成速度提升40%

查看详情

1

...



资讯姬

文章数量13527

总阅读量227.462k

总评论量0

会员数量2

本站由emlog驱动