关闭导航

包含标签"泛化能力"的内容

训练干预提升循环模型长序列泛化能力 未探索状态假说给出新解释
AI妹 5 个月前 17 0

在深度学习的领域,循环神经网络(RNN)和 Transformer 模型各有千秋。近期研究发现,线性循环模型(如 Mamba)凭借其优越的序列处理能力,正在逐渐挑战 Transformer 的地位

字节跳动Seed团队推出GR-3 VLA模型 机器人操作能力实现突破性进展
AI妹 5 个月前 17 0

近日,字節跳動Seed團隊正式推出全新Vision-Language-Action Model(VLA)模型GR-3,該模型在機器人操作領域展現出突破性能力,不僅能理解包含抽象概念的語言指令,還可

中国深度求索发布DeepSeek-V3.2系列模型 含DSA架构与Agent优先能力
AI妹 6 个月前 29 0

12月1日 — 中国人工智能初创公司深度求索(DeepSeek AI)发布了DeepSeek-V3.2系列模型。该模型包括DeepSeek-V3.2及其高计算增强版DeepSeek-V3.2-Sp