Transformer模型 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"Transformer模型"的内容

DeepSeek V4与姚顺雨新混元模型2026年4月发布聚焦多模态与国产适配

DeepSeek V4与姚顺雨新混元模型2026年4月发布聚焦多模态与国产适配

AI妹 1 个月前 1 0

据《白鲸实验室》独家消息，备受期待的 DeepSeek V4 与姚顺雨新混元模型将于 2026 年 4 月正式发布。DeepSeek V4 是由梁文锋主导研发的多模态大模型，经过长期的打磨与提升，

多模态大模型 Transformer模型腾讯AI Infra部门长上下文 DeepSeek V4

查看详情

苹果M4芯片ANE破解：端侧可低成本训练Transformer 能效远超专业显卡

苹果M4芯片ANE破解：端侧可低成本训练Transformer 能效远超专业显卡

AI妹 1 个月前 1 0

一直以来，苹果的神经引擎（ANE）都被严密地封锁在“仅限推理”的铁幕之后。但在2026年的今天，这道围墙被推倒了。近日，工程师 Manjeet Singh 联

Manjeet Singh 家庭实验室 Mac Mini MacBook Stories110M模型

查看详情

训练干预提升循环模型长序列泛化能力未探索状态假说给出新解释

训练干预提升循环模型长序列泛化能力未探索状态假说给出新解释

AI妹 3 个月前 13 0

在深度学习的领域，循环神经网络（RNN）和 Transformer 模型各有千秋。近期研究发现，线性循环模型(如 Mamba)凭借其优越的序列处理能力，正在逐渐挑战 Transformer 的地位

长序列处理状态传递 Transformer模型拟合噪声卡内基梅隆大学

查看详情

循環モデルの長序列一般化能力向上に関する訓練介入手法の提案

循環モデルの長序列一般化能力向上に関する訓練介入手法の提案

AI妹 3 个月前 12 0

ディープラーニングの分野において、循環ニューラルネットワーク（RNN）とTransformerモデルはそれぞれ長所を持っています。最近の研究では、線形循環モデル（例えばMamba）が優れたシーケン

固定上下文窗口限制线性循环模型性能提升训练介入随机噪声

查看详情

线性循环模型（如Mamba）挑战Transformer 新训练干预解锁长序列泛化潜力

线性循环模型（如Mamba）挑战Transformer 新训练干预解锁长序列泛化潜力

AI妹 3 个月前 11 0

在深度學習的領域，循環神經網絡（RNN）和 Transformer 模型各有千秋。近期研究發現，線性循環模型(如 Mamba)憑藉其優越的序列處理能力，正在逐漸挑戰 Transformer 的地位

长上下文任务 RNN 循环神经网络拟合噪声未探索状态假说

查看详情

谷歌DeepMind MoR架构高效超越传统Transformer 成AI大型模型新突破

谷歌DeepMind MoR架构高效超越传统Transformer 成AI大型模型新突破

AI妹 3 个月前 10 0

在人工智能领域，大型语言模型（LLM）因其出色的表现而受到广泛关注，但其在部署时却面临着巨大的计算和内存开销问题。为了克服这一挑战，谷歌 DeepMind 最近推出了一种新架构 ——Mixture

参数共享 Transformer模型内存带宽谷歌DeepMind 大规模预训练

查看详情



资讯姬

文章数量11972

总阅读量188.816k

总评论量0

会员数量2

本站由emlog驱动