关闭导航

包含标签"基准测试"的内容

AI重塑医疗健康咨询:ChatGPT高频使用填补时空及资源空白
AI妹 13 天前 5 0

随着人工智能技术的普及,AI 正在重塑人们获取医疗健康信息的习惯。根据 OpenAI 最新发布的一份数据报告显示,ChatGPT 已成为全球数千万用户获取健康咨询

METR测试中Claude Opus4.5刷新AI超长复杂任务处理时长纪录
AI妹 29 天前 8 0

在追求大模型“高智商”的同时,AI 的持续执行能力正成为衡量其进化水平的新维度。根据人工智能研究机构 METR 发布的最新基准测试,Anthropic 旗下的顶级

大语言模型过度预训练或致性能下降 存在灾难性过度训练拐点
AI妹 1 个月前 9 0

近日,来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型(LLMs)训练的新发现:并不是预训练的数据越多,模型的表现就越好。相反,他们指出,过度的预训练可能会

百度发布文心X1Turbo及4.5Turbo 性能领先价格亲民冲击国内AI大模型市场
AI妹 1 个月前 9 0

在百度 Create 開發者大會上,百度創始人李彥宏重磅發佈了全新一代文心大模型 X1Turbo。這款模型在性能大幅提升的同時,價格極具競爭力,每百萬 token 的輸入價格僅爲1元,輸出價格爲4

Ollama全面支持阿里通义千问Qwen3 丰富开源生态助力本地化部署
AI妹 1 个月前 8 0

Ollama官方宣布已全面支持阿里巴巴通义千问最新一代大语言模型系列——Qwen3。这一重要更新进一步丰富了Ollama的开源模型生态,为开发者、企业及AI爱好者提供了更强大的本地化部署选择,显著

通义灵码Qwen3上线开源混合推理模型 支持主流IDE及多语言Agent能力升级
AI妹 1 个月前 9 0

通義靈碼團隊宣佈正式上線Qwen3,並開源了8款「混合推理模型」,這標誌着編程智能體的進一步發展。此次開源包括兩款MoE模型:Qwen3-235B-A22B(2350多億總參數、220多億激活參數

Moonshot AI开源Kimi-VL多模态模型 高效能处理长文档与多任务
AI妹 1 个月前 10 0

中国初创公司 Moonshot AI 最近推出了一款名为 Kimi-VL 的开源模型。该模型在处理图像、文本和视频方面表现出色,以其高效的性能引起了广泛关注。Kimi-VL 最大的亮点在于其处理长

阿里Qwen3:通义千问最新开源大模型,混合推理多模态全场景覆盖
AI妹 1 个月前 12 0

Qwen3是什么? 阿里Qwen3是通义千问系列的最新一代开源大语言模型(LLM),于2025年4月29日正式发布。作为全球首个支持“混合推理”的模型,Qwen3包含8款不同规模的模型,涵盖稠密

智谱发布GLM-4.5开源旗舰模型 专为Agent打造性能国产开源第一价格亲民
AI妹 1 个月前 9 0

近日,智谱正式推出了其最新旗舰模型 GLM-4.5,这款模型被称为 “专为 Agent 应用打造的基础模型”,并且在推理、代码生成以及智能体综合能力上达到了开源模型的 SOTA(State Of

阶跃AI“阶跃深研”上线:高效生成专业报告 测试表现行业领先
AI妹 1 个月前 9 0

階躍AI正式上線了其全新研究助手——“階躍深研”,該產品已在階躍AI App及stepfun.com平臺開放體驗,同時開啓內部邀請測試。這款智能工具專爲金融、諮詢、醫療、法律、政策及學術研究等領域