关闭导航

包含标签"PHD-CSWA"的内容

字节跳动PHD-Transformer:高效支持2M上下文LLM长序列预训练
AI妹 1 个月前 9 0

字节跳动宣布推出高效预训练长度缩放技术(Efficient Pretraining Length Scaling),通过创新的Parallel Hidden Decoding Transforme

字节跳动PHD-Transformer技术突破LLM 2M上下文预训练效率瓶颈
AI妹 1 个月前 10 0

ByteDance has announced the launch of Efficient Pretraining Length Scaling, leveraging a novel Par

字节跳动PHD-Transformer:高效预训练长序列 支持2M上下文提升LLM训练效率
AI妹 1 个月前 8 0

字節跳動宣佈推出高效預訓練長度縮放技術(Efficient Pretraining Length Scaling),通過創新的Parallel Hidden Decoding Transforme

字节跳动Seed团队PHD-Transformer:新策略突破预训练长度限制有效解决KV缓存问题
AI妹 1 个月前 10 0

近日,字节跳动的 Seed 团队在人工智能领域再传佳音,推出了一种新型的 PHD-Transformer(Parallel Hidden Decoding Transformer),这项创新突破了