关闭导航

包含标签"低精度训练兼容"的内容

字节跳动PHD-Transformer:高效支持2M上下文LLM长序列预训练
AI妹 1 个月前 8 0

字节跳动宣布推出高效预训练长度缩放技术(Efficient Pretraining Length Scaling),通过创新的Parallel Hidden Decoding Transforme