关闭导航

包含标签"长序列处理"的内容

训练干预提升循环模型长序列泛化能力 未探索状态假说给出新解释
AI妹 1 个月前 9 0

在深度学习的领域,循环神经网络(RNN)和 Transformer 模型各有千秋。近期研究发现,线性循环模型(如 Mamba)凭借其优越的序列处理能力,正在逐渐挑战 Transformer 的地位

循環モデルの長序列一般化能力向上に関する訓練介入手法の提案
AI妹 1 个月前 7 0

ディープラーニングの分野において、循環ニューラルネットワーク(RNN)とTransformerモデルはそれぞれ長所を持っています。最近の研究では、線形循環モデル(例えばMamba)が優れたシーケン

线性循环模型(如Mamba)挑战Transformer 新训练干预解锁长序列泛化潜力
AI妹 1 个月前 7 0

在深度學習的領域,循環神經網絡(RNN)和 Transformer 模型各有千秋。近期研究發現,線性循環模型(如 Mamba)憑藉其優越的序列處理能力,正在逐漸挑戰 Transformer 的地位

Hugging Face开源SmolLM3:3B参数性能直逼4B,多优势赋能多场景
AI妹 1 个月前 8 0

近日,Hugging Face正式推出全新开源语言模型 SmolLM3,一款拥有3B参数的轻量级大语言模型(LLM),以其卓越性能和高效设计引发行业广泛关注。SmolLM3不仅在多项基准测试中超越

Tri Dao团队用Python/CuTe-DSL推QuACK 无CUDA实现H100性能提升33%-50%
AI妹 1 个月前 10 0

据最新报道,Flash Attention 的共同作者 Tri Dao 与普林斯顿大学的两位博士生联合推出了一个名为 QuACK 的新内核库,令人瞩目的是,他们仅使用 Python 和 CuTe-

昆仑元AI发布昇腾平台全模态融合模型BaiZe-Omni-14b-a2b性能突出
AI妹 1 个月前 17 0

在2025世界计算大会上,昆仑元 AI 正式发布了基于昇腾(Ascend)平台的全模态融合模型 BaiZe-Omni-14b-a2b。这一新模型具备强大的文本、音频、图像和视频理解与生成能力,采用