关闭导航

包含标签"MMLU"的内容

DeepSeek Engram模块:高效存储静态知识,提升LLM性能与长文本处理能力
AI妹 4 天前 3 0

传统的 Transformer 模型在处理重复性知识时往往显得有些“浪费”,每次遇到相同的模式都需要重新计算,这不仅消耗深度也浪费了计算资源。为了打破这一瓶颈,DeepSeek 的研究团队近日推出

OpenAI发布GPT-4.1系列模型 性能超GPT-4o成本降效率提升
AI妹 1 个月前 8 0

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。该系列在编程能力、指令理解及长文本

OpenAI发布GPT-4.1系列模型 全面超越GPT-4o 高效低成本
AI妹 1 个月前 9 0

4月15日,OpenAI 在其官方博客宣佈正式發佈 GPT-4.1系列模型,涵蓋 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。該系列在編程能力、指令理解及長文本

微信元宝AI好友上线:功能亮点及对行业的潜在影响解析
AI妹 1 个月前 9 0

微信于2025年4月16日正式推出元宝AI好友功能,允许用户将腾讯自研的AI助手元宝添加为微信联系人,直接在聊天窗口进行交互。这一功能的发布不仅增强了微信作为超级应用的粘性,也对其他AI聊天服务和

小米MiMo-7B开源大模型发布 轻量化+强化学习赋能顶级推理能力
AI妹 1 个月前 10 0

小米正式在Hugging Face平台发布其首个专为推理(Reasoning)设计的开源大模型——MiMo-7B。据AIbase了解,MiMo-7B通过从预训练到后训练的强化学习(RL)优化,展现

小米MiMo-7B开源推理大模型:轻量架构强化学习性能超32B模型
AI妹 1 个月前 9 0

小米正式在Hugging Face平臺發佈其首個專爲推理(Reasoning)設計的開源大模型——MiMo-7B。據AIbase瞭解,MiMo-7B通過從預訓練到後訓練的強化學習(RL)優化,展現

法国Mistral AI推出Mistral3系列模型 开源128K上下文性能优价格仅GPT-4o一半
AI妹 1 个月前 16 0

法国独角兽 Mistral AI 于12月2日推出 Mistral3系列模型,包括3B、8B、14B 三个小型密集模型及迄今最强的 Mistral Large3,覆盖从边缘设备到企业级推理的全场景

DeepSeek V3.2系列发布 核心DSA升级性能对标闭源且开源可商用
AI妹 1 个月前 17 0

DeepSeek 发布 V3.2(标准版)与 V3.2-Speciale(深度思考版),官方评测显示: - V3.2在128k 上下文场景下与 GPT-5互有胜负 - V3.2-Special