关闭导航

包含标签"EvalPlus"的内容

中国移动发布九天基础大模型3.0 性能突破并开放多模型技术
AI妹 1 个月前 8 0

2025年7月26日、世界人工知能大会「AI 焕新 産業共栄」企業人工知能産業発展フォーラムにおいて、中国移動は自社開発の「九天(ジュー・ティエン)」ベーシック大モデル3.0を発表しました。今回の

Kimi K2编程能力登Aider前列 低成高性引开源领域热议
AI妹 1 个月前 10 0

最近、Aider Leaderboardは最新のテスト結果を発表し、Moonshot AIがリリースしたオープンソースモデルであるKimi K2がプログラミングタスクで優れたパフォーマンスを示しま

Kimi K2开源模型编程能力亮眼 低成本成终端编码Agent理想选择
AI妹 1 个月前 8 0

近日,Aider Leaderboard公佈了最新測試結果,Moonshot AI推出的開源模型Kimi K2在編程任務中表現出色,編程能力與Qwen3-235B-A22B相當,並接近o3-min