基准测试 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"基准测试"的内容

METR测试中Claude Opus4.5刷新AI超长复杂任务处理时长纪录

METR测试中Claude Opus4.5刷新AI超长复杂任务处理时长纪录

AI妹 5 个月前 21 0

在追求大模型“高智商”的同时，AI 的持续执行能力正成为衡量其进化水平的新维度。根据人工智能研究机构 METR 发布的最新基准测试，Anthropic 旗下的顶级

4小时49分钟复杂任务 20小时大模型高智商刷分

查看详情

大语言模型过度预训练或致性能下降存在灾难性过度训练拐点

大语言模型过度预训练或致性能下降存在灾难性过度训练拐点

AI妹 5 个月前 20 0

近日，来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型（LLMs）训练的新发现:并不是预训练的数据越多，模型的表现就越好。相反，他们指出，过度的预训练可能会

高斯噪声微调任务不匹配灾难性过度训练基准测试 OLMo-1B模型

查看详情

百度发布文心X1Turbo及4.5Turbo 性能领先价格亲民冲击国内AI大模型市场

百度发布文心X1Turbo及4.5Turbo 性能领先价格亲民冲击国内AI大模型市场

AI妹 5 个月前 21 0

在百度 Create 開發者大會上，百度創始人李彥宏重磅發佈了全新一代文心大模型 X1Turbo。這款模型在性能大幅提升的同時，價格極具競爭力，每百萬 token 的輸入價格僅爲1元，輸出價格爲4

DeepSeek-V3 李彦宏文心大模型X1Turbo 创作 DeepSeek-R1

查看详情

Ollama全面支持阿里通义千问Qwen3 丰富开源生态助力本地化部署

Ollama全面支持阿里通义千问Qwen3 丰富开源生态助力本地化部署

AI妹 5 个月前 17 0

Ollama官方宣布已全面支持阿里巴巴通义千问最新一代大语言模型系列——Qwen3。这一重要更新进一步丰富了Ollama的开源模型生态，为开发者、企业及AI爱好者提供了更强大的本地化部署选择，显著

模型量化代码生成混合专家模型（MoE）硬件加速多语言支持

查看详情

通义灵码Qwen3上线开源混合推理模型支持主流IDE及多语言Agent能力升级

通义灵码Qwen3上线开源混合推理模型支持主流IDE及多语言Agent能力升级

AI妹 5 个月前 24 0

通義靈碼團隊宣佈正式上線Qwen3，並開源了8款「混合推理模型」，這標誌着編程智能體的進一步發展。此次開源包括兩款MoE模型:Qwen3-235B-A22B（2350多億總參數、220多億激活參數

通义灵码开源 Dense模型工具调用能力 JetBrains IDEs

查看详情

Moonshot AI开源Kimi-VL多模态模型高效能处理长文档与多任务

Moonshot AI开源Kimi-VL多模态模型高效能处理长文档与多任务

AI妹 5 个月前 18 0

中国初创公司 Moonshot AI 最近推出了一款名为 Kimi-VL 的开源模型。该模型在处理图像、文本和视频方面表现出色，以其高效的性能引起了广泛关注。Kimi-VL 最大的亮点在于其处理长

开源模型图像处理手写笔记分析 Kimi k1.5 Kimi-VL-Thinking

查看详情

阿里Qwen3：通义千问最新开源大模型，混合推理多模态全场景覆盖

阿里Qwen3：通义千问最新开源大模型，混合推理多模态全场景覆盖

AI妹 5 个月前 20 0

Qwen3是什么? 阿里Qwen3是通义千问系列的最新一代开源大语言模型（LLM），于2025年4月29日正式发布。作为全球首个支持“混合推理”的模型，Qwen3包含8款不同规模的模型，涵盖稠密

Qwen3-VL 非思考模式混合专家模型教育与科研 MoE架构

查看详情

智谱发布GLM-4.5开源旗舰模型专为Agent打造性能国产开源第一价格亲民

智谱发布GLM-4.5开源旗舰模型专为Agent打造性能国产开源第一价格亲民

AI妹 5 个月前 20 0

近日，智谱正式推出了其最新旗舰模型 GLM-4.5，这款模型被称为 “专为 Agent 应用打造的基础模型”，并且在推理、代码生成以及智能体综合能力上达到了开源模型的 SOTA（State Of

GLM-4.5-Air 任务完成度工具调用开源模型 Hugging Face

查看详情

阶跃AI“阶跃深研”上线：高效生成专业报告测试表现行业领先

阶跃AI“阶跃深研”上线：高效生成专业报告测试表现行业领先

AI妹 5 个月前 17 0

階躍AI正式上線了其全新研究助手——“階躍深研”，該產品已在階躍AI App及stepfun.com平臺開放體驗，同時開啓內部邀請測試。這款智能工具專爲金融、諮詢、醫療、法律、政策及學術研究等領域

信息处理与整合能力政策搜索工具 HTML导出创业者

查看详情

Qwen3开源发布：多模型性能卓越支持119种语言助力全球研发

Qwen3开源发布：多模型性能卓越支持119种语言助力全球研发

AI妹 5 个月前 19 0

在全球人工智能领域，Qwen 系列大型语言模型迎来了新成员 ——Qwen3的发布。今日，通义宣布将 Qwen3开源，带来了令人振奋的技术革新。此次发布的旗舰模型 Qwen3-235B-A22B

vLLM Kaggle ModelScope Qwen3-30B-A3B 思考模式

查看详情

2



资讯姬

文章数量13565

总阅读量243.558k

总评论量0

会员数量2

本站由emlog驱动