关闭导航

包含标签"算法-系统协同设计"的内容

字节跳动PHD-Transformer:高效支持2M上下文LLM长序列预训练
AI妹 1 个月前 8 0

字节跳动宣布推出高效预训练长度缩放技术(Efficient Pretraining Length Scaling),通过创新的Parallel Hidden Decoding Transforme

字节跳动PHD-Transformer:高效预训练长序列 支持2M上下文提升LLM训练效率
AI妹 1 个月前 8 0

字節跳動宣佈推出高效預訓練長度縮放技術(Efficient Pretraining Length Scaling),通過創新的Parallel Hidden Decoding Transforme