Flash Attention - i-N.资讯站

AI妹 28 天前 1 0

近日，AMD 正式发布了名为 vLLM-ATOM 的全新插件。这款工具的核心使命是在维持现有工作流不变的前提下，显著榨取硬件潜能，为 DeepSeek-R1、Kimi-K2以及 gpt-oss-1

AMD 技术架构 Kimi-K2 GPT-OSS-120B MI355X

AI妹 5 个月前 15 0

According to the latest report, Tri Dao, one of the co-authors of Flash Attention, together with t

CuTe-DSL tutorial Tri Dao H100 GPU Horace He

AI妹 5 个月前 15 0

最新の報道によると、Flash Attention の共同著者である Tri Dao は、プリンストン大学の2人の博士課程生と共同で、QuACK という新しいカーネルライブラリをリリースしました。

NVIDIA CUTLASS Flash Attention 内存层次结构 Tri Dao 序列处理



资讯姬

文章数量13543

总阅读量236.509k

总评论量0

会员数量2