滑动窗口注意力机制 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"滑动窗口注意力机制"的内容

字节跳动PHD-Transformer：高效支持2M上下文LLM长序列预训练

字节跳动PHD-Transformer：高效支持2M上下文LLM长序列预训练

AI妹 1 个月前 8 0

字节跳动宣布推出高效预训练长度缩放技术（Efficient Pretraining Length Scaling），通过创新的Parallel Hidden Decoding Transforme

计算平衡优化 ByteScale框架超长上下文语言模型多模态模型训练 VeOmni框架

查看详情

字节跳动PHD-Transformer：高效预训练长序列支持2M上下文提升LLM训练效率

字节跳动PHD-Transformer：高效预训练长序列支持2M上下文提升LLM训练效率

AI妹 1 个月前 8 0

字節跳動宣佈推出高效預訓練長度縮放技術（Efficient Pretraining Length Scaling），通過創新的Parallel Hidden Decoding Transforme

Hailuo Image 量化策略 PHD-CSWA 上下文长度 ByteScale框架

查看详情

字节跳动Seed团队PHD-Transformer：新策略突破预训练长度限制有效解决KV缓存问题

字节跳动Seed团队PHD-Transformer：新策略突破预训练长度限制有效解决KV缓存问题

AI妹 1 个月前 9 0

近日，字节跳动的 Seed 团队在人工智能领域再传佳音，推出了一种新型的 PHD-Transformer（Parallel Hidden Decoding Transformer），这项创新突破了

滑动窗口注意力机制大规模推理任务预填充时间 PHD-Transformer KV缓存膨胀

查看详情

OpenAI GPT-OSS开源传闻技术亮点显著影响AI行业走向

OpenAI GPT-OSS开源传闻技术亮点显著影响AI行业走向

AI妹 1 个月前 7 0

近日，网络上流传出OpenAI即将推出开源模型系列“GPT-OSS”（GPT Open Source Software）的重大信息泄露，引发业界广泛关注。据泄露的配置文件，这一操作系统系列模型参数

GPT-OSS 131k Tokens AIbase Mistral MoE架构

查看详情

OpenAI拟开源GPT-OSS：MoE架构+长上下文能力引行业关注

OpenAI拟开源GPT-OSS：MoE架构+长上下文能力引行业关注

AI妹 1 个月前 8 0

近日，網絡上流傳出OpenAI即將推出開源模型系列“GPT-OSS”（GPT Open Source Software）的重大信息泄露，引發業界廣泛關注。據泄露的配置文件，這一操作系統系列模型參數

高效注意力机制 NTK RoPE GPT-OSS Top-4路由机制滑动窗口注意力机制

查看详情



资讯姬

文章数量9897

总阅读量88.335k

总评论量1

会员数量2

最新评论

emlog1 个月前

发表在：欢迎使用emlog

这是系统生成的演示评论

本站由emlog驱动