关闭导航

包含标签"显存利用率"的内容

AMD推出vLLM-ATOM插件 助力Instinct GPU大模型推理高效提速
AI妹 28 天前 1 0

近日,AMD 正式发布了名为 vLLM-ATOM 的全新插件。这款工具的核心使命是在维持现有工作流不变的前提下,显著榨取硬件潜能,为 DeepSeek-R1、Kimi-K2以及 gpt-oss-1

vLLM发布全模态推理框架vLLM-Omni 解耦架构提效开源
AI妹 6 个月前 27 0

vLLM团队发布首个“全模态”推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念验证变成可落地代码。新框架已上线GitHub与ReadTheDocs,开发者可立即pip安装并调用