GSM8K - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"GSM8K"的内容

DeepSeek Engram模块：高效存储静态知识，提升LLM性能与长文本处理能力

DeepSeek Engram模块：高效存储静态知识，提升LLM性能与长文本处理能力

AI妹 5 天前 3 0

传统的 Transformer 模型在处理重复性知识时往往显得有些“浪费”，每次遇到相同的模式都需要重新计算，这不仅消耗深度也浪费了计算资源。为了打破这一瓶颈，DeepSeek 的研究团队近日推出

验证损失优化长文本处理 MMLU O(1)哈希查找稀疏大语言模型

查看详情

Liquid AI发布LFM2.5小型多模态模型家族赋能边缘高效智能应用

Liquid AI发布LFM2.5小型多模态模型家族赋能边缘高效智能应用

AI妹 13 天前 8 0

Liquid AI 最近推出了 LFM2.5，这是一个新一代的小型基础模型家族，基于 LFM2架构，专注于边缘设备和本地部署。该模型家族包括 LFM2.5-1.2B-Base 和 LFM2.5-1

JMMLU 文档理解 LFM2.5 IFBench 知识推理

查看详情

DeepSeek架构优化研究：无需堆参数大幅提升大模型推理且成本低

DeepSeek架构优化研究：无需堆参数大幅提升大模型推理且成本低

AI妹 16 天前 7 0

近日，知名 AI 实验室 DeepSeek 发表了一项极具影响力的研究论文，揭示了通过优化神经网络架构而非仅仅增加模型规模，也能大幅提升大语言模型的推理表现。这一

流形约束超连接 DeepSeek-R1 GSM8K 神经网络架构优化推理能力增强

查看详情

Liquid AI发布LFM2-2.6B-Exp 26亿参模型性能超百亿级开源推动边缘AI

Liquid AI发布LFM2-2.6B-Exp 26亿参模型性能超百亿级开源推动边缘AI

AI妹 25 天前 11 0

圣诞节当天，知名边缘AI初创公司Liquid AI正式发布了其最新实验性模型LFM2-2.6B-Exp，这一仅有2.6B（26亿）参数的小型开源模型，在多项关键基准测试中表现出色，尤其在指令跟随能

32K上下文长度混合架构 Hugging Face 开源模型 3B级模型

查看详情

微软发布BitNet b1.58-2B-4T 低精度高効率20亿参数模型

微软发布BitNet b1.58-2B-4T 低精度高効率20亿参数模型

AI妹 1 个月前 10 0

先日、マイクロソフトの研究チームは、BitNet b1.582B4Tというオープンソースの大規模言語モデルを発表しました。このモデルは20億のパラメータを持ち、独自の1.58ビット低精度アーキテク

MIT许可证大语言模型 Hugging Face bitnet.cpp BitNet

查看详情

微软开源高效BitNet低精度模型 1.58位权重20亿参数内存仅0.4GB

微软开源高效BitNet低精度模型 1.58位权重20亿参数内存仅0.4GB

AI妹 1 个月前 11 0

近日，微软研究团队正式发布了一款名为 BitNet b1.582B4T 的开源大型语言模型。这款模型拥有20亿参数，采用了独特的1.58位低精度架构进行原生训练，与传统的训练后量化方式相比，Bit

4096token上下文窗口 1.58位低精度架构 GPU优化 GSM8K Transformer架构调整

查看详情

微软发布BitNet b1.58-2B-4T开源模型 20亿参数1.58位低精度内存仅0.4GB

微软发布BitNet b1.58-2B-4T开源模型 20亿参数1.58位低精度内存仅0.4GB

AI妹 1 个月前 8 0

近日，微軟研究團隊正式發佈了一款名爲 BitNet b1.582B4T 的開源大型語言模型。這款模型擁有20億參數，採用了獨特的1.58位低精度架構進行原生訓練，與傳統的訓練後量化方式相比，Bit

MIT许可证三值系统 20亿参数 1.58位低精度架构 bitnet.cpp框架

查看详情

清华上交研究质疑RL提升大语言模型推理能力引发学界广泛讨论

清华上交研究质疑RL提升大语言模型推理能力引发学界广泛讨论

AI妹 1 个月前 11 0

【研究の転換点】清華大学と上海交通大学が共同発表した最新の論文は、業界で広く信じられている「純粋な強化学習（RL）は大規模言語モデルの推論能力を向上させる」という見解に異議を唱えています。研

推论能力清华大学 HumanEval+ 表现能力视觉推论

查看详情

清华交大联合研究挑战纯RL提升大模型推理能力的传统观点

清华交大联合研究挑战纯RL提升大模型推理能力的传统观点

AI妹 1 个月前 10 0

【研究顛覆】清華大學與上海交通大學聯合發表的最新論文，對業界普遍認爲"純強化學習（RL）能提升大模型推理能力"的觀點提出了挑戰性反駁。研究發現，引入強化學習的模型在某些任務中的表現，反而遜色於

HumanEval+ 强化学习数学任务 RL 视觉推理

查看详情

清华上交联合研究挑战传统认知：纯RL难增强大模型推理能力学界热议

清华上交联合研究挑战传统认知：纯RL难增强大模型推理能力学界热议

AI妹 1 个月前 11 0

【Research Upends Conventional Wisdom】 A recent joint paper from Tsinghua University and Shanghai

GSM8K 数学任务知识组织清华大学奖励结构

查看详情

1



资讯姬

文章数量9911

总阅读量90.794k

总评论量1

会员数量2

最新评论

emlog1 个月前

发表在：欢迎使用emlog

这是系统生成的演示评论

本站由emlog驱动