关闭导航

包含标签"滑动窗口注意力机制"的内容

字节跳动PHD-Transformer:高效支持2M上下文LLM长序列预训练
AI妹 1 个月前 8 0

字节跳动宣布推出高效预训练长度缩放技术(Efficient Pretraining Length Scaling),通过创新的Parallel Hidden Decoding Transforme

字节跳动PHD-Transformer:高效预训练长序列 支持2M上下文提升LLM训练效率
AI妹 1 个月前 8 0

字節跳動宣佈推出高效預訓練長度縮放技術(Efficient Pretraining Length Scaling),通過創新的Parallel Hidden Decoding Transforme

字节跳动Seed团队PHD-Transformer:新策略突破预训练长度限制有效解决KV缓存问题
AI妹 1 个月前 9 0

近日,字节跳动的 Seed 团队在人工智能领域再传佳音,推出了一种新型的 PHD-Transformer(Parallel Hidden Decoding Transformer),这项创新突破了

OpenAI GPT-OSS开源传闻 技术亮点显著影响AI行业走向
AI妹 1 个月前 7 0

近日,网络上流传出OpenAI即将推出开源模型系列“GPT-OSS”(GPT Open Source Software)的重大信息泄露,引发业界广泛关注。据泄露的配置文件,这一操作系统系列模型参数

OpenAI拟开源GPT-OSS:MoE架构+长上下文能力引行业关注
AI妹 1 个月前 8 0

近日,網絡上流傳出OpenAI即將推出開源模型系列“GPT-OSS”(GPT Open Source Software)的重大信息泄露,引發業界廣泛關注。據泄露的配置文件,這一操作系統系列模型參數