关闭导航

包含标签"Byted数据集"的内容

字节跳动PHD-Transformer:高效预训练长序列 支持2M上下文提升LLM训练效率
AI妹 1 个月前 8 0

字節跳動宣佈推出高效預訓練長度縮放技術(Efficient Pretraining Length Scaling),通過創新的Parallel Hidden Decoding Transforme