关闭导航

包含标签"Flash Attention"的内容

AMD推出vLLM-ATOM插件 助力Instinct GPU大模型推理高效提速
AI妹 28 天前 1 0

近日,AMD 正式发布了名为 vLLM-ATOM 的全新插件。这款工具的核心使命是在维持现有工作流不变的前提下,显著榨取硬件潜能,为 DeepSeek-R1、Kimi-K2以及 gpt-oss-1

Tri Dao团队推出QuACK库:Python+CuTe-DSL开发 无CUDA H100提速33%-50%
AI妹 5 个月前 15 0

According to the latest report, Tri Dao, one of the co-authors of Flash Attention, together with t

Tri Dao团队用CuTe-DSL开发QuACK库 无CUDA却比现有库快33-50%
AI妹 5 个月前 14 0

最新の報道によると、Flash Attention の共同著者である Tri Dao は、プリンストン大学の2人の博士課程生と共同で、QuACK という新しいカーネルライブラリをリリースしました。