关闭导航

包含标签"SDP4Bit"的内容

字节跳动PHD-Transformer技术突破LLM 2M上下文预训练效率瓶颈
AI妹 1 个月前 10 0

ByteDance has announced the launch of Efficient Pretraining Length Scaling, leveraging a novel Par

字节跳动PHD-Transformer:高效预训练长序列 支持2M上下文提升LLM训练效率
AI妹 1 个月前 8 0

字節跳動宣佈推出高效預訓練長度縮放技術(Efficient Pretraining Length Scaling),通過創新的Parallel Hidden Decoding Transforme