关闭导航

包含标签" PHD-CSWA"的内容

字节跳动PHD-Transformer:支持2M上下文高效长序列预训练技术
AI妹 1 个月前 8 0

バイトダンスは、革新的なParallel Hidden Decoding Transformer(PHD-Transformer)フレームワークを用いた、高効率事前学習長尺度調整技術(Effici

字节跳动Seed团队推出PHD-Transformer 突破预训练长度限制并解决KV缓存问题
AI妹 1 个月前 8 0

近日,字節跳動的 Seed 團隊在人工智能領域再傳佳音,推出了一種新型的 PHD-Transformer(Parallel Hidden Decoding Transformer),這項創新突破了