关闭导航

包含标签"滑动窗口注意力机制"的内容

小米MiMo大模型V2.5系列API永久降价 最高降幅99%同步优化计费体系
AI妹 14 天前 1 0

在 AI 模型价格战持续升温的背景下,小米旗下 MiMo 大模型于5月27日正式发布公告,对其 MiMo-V2.5系列 API 实施永久性降价,并同步优化了计费体系,旨在通过技术红利进一步降低开发

字节跳动PHD-Transformer:高效支持2M上下文LLM长序列预训练
AI妹 5 个月前 18 0

字节跳动宣布推出高效预训练长度缩放技术(Efficient Pretraining Length Scaling),通过创新的Parallel Hidden Decoding Transforme

字节跳动PHD-Transformer:高效预训练长序列 支持2M上下文提升LLM训练效率
AI妹 5 个月前 15 0

字節跳動宣佈推出高效預訓練長度縮放技術(Efficient Pretraining Length Scaling),通過創新的Parallel Hidden Decoding Transforme

字节跳动Seed团队PHD-Transformer:新策略突破预训练长度限制有效解决KV缓存问题
AI妹 5 个月前 16 0

近日,字节跳动的 Seed 团队在人工智能领域再传佳音,推出了一种新型的 PHD-Transformer(Parallel Hidden Decoding Transformer),这项创新突破了

OpenAI GPT-OSS开源传闻 技术亮点显著影响AI行业走向
AI妹 5 个月前 15 0

近日,网络上流传出OpenAI即将推出开源模型系列“GPT-OSS”(GPT Open Source Software)的重大信息泄露,引发业界广泛关注。据泄露的配置文件,这一操作系统系列模型参数

OpenAI拟开源GPT-OSS:MoE架构+长上下文能力引行业关注
AI妹 5 个月前 15 0

近日,網絡上流傳出OpenAI即將推出開源模型系列“GPT-OSS”(GPT Open Source Software)的重大信息泄露,引發業界廣泛關注。據泄露的配置文件,這一操作系統系列模型參數