PHD-CSWA - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"PHD-CSWA"的内容

字节跳动PHD-Transformer：高效支持2M上下文LLM长序列预训练

字节跳动PHD-Transformer：高效支持2M上下文LLM长序列预训练

AI妹 1 个月前 9 0

字节跳动宣布推出高效预训练长度缩放技术（Efficient Pretraining Length Scaling），通过创新的Parallel Hidden Decoding Transforme

低精度训练兼容 KV缓存管理 PHD-Transformer PHD-CSWA 滑动窗口注意力机制

查看详情

字节跳动PHD-Transformer技术突破LLM 2M上下文预训练效率瓶颈

字节跳动PHD-Transformer技术突破LLM 2M上下文预训练效率瓶颈

AI妹 1 个月前 10 0

ByteDance has announced the launch of Efficient Pretraining Length Scaling, leveraging a novel Par

LLaMA-7B arxiv multimodal model training ByteCheckpoint HunYuan 3D engine

查看详情

字节跳动PHD-Transformer：高效预训练长序列支持2M上下文提升LLM训练效率

字节跳动PHD-Transformer：高效预训练长序列支持2M上下文提升LLM训练效率

AI妹 1 个月前 8 0

字節跳動宣佈推出高效預訓練長度縮放技術（Efficient Pretraining Length Scaling），通過創新的Parallel Hidden Decoding Transforme

VeOmni训练框架大语言模型 LLaMA-7B ByteCheckpoint Hailuo Image

查看详情

字节跳动Seed团队PHD-Transformer：新策略突破预训练长度限制有效解决KV缓存问题

字节跳动Seed团队PHD-Transformer：新策略突破预训练长度限制有效解决KV缓存问题

AI妹 1 个月前 10 0

近日，字节跳动的 Seed 团队在人工智能领域再传佳音，推出了一种新型的 PHD-Transformer（Parallel Hidden Decoding Transformer），这项创新突破了

强化学习准确率提升预训练长度限制 PHD-SWA 滑动窗口注意力机制

查看详情



资讯姬

文章数量9911

总阅读量95.366k

总评论量1

会员数量2

最新评论

emlog2 个月前

发表在：欢迎使用emlog

这是系统生成的演示评论

本站由emlog驱动