关闭导航

包含标签"吞吐量"的内容

AMD推出vLLM-ATOM插件 助力Instinct GPU大模型推理高效提速
AI妹 28 天前 1 0

近日,AMD 正式发布了名为 vLLM-ATOM 的全新插件。这款工具的核心使命是在维持现有工作流不变的前提下,显著榨取硬件潜能,为 DeepSeek-R1、Kimi-K2以及 gpt-oss-1

英伟达发布Nemotron3 Nano Omni多模态模型 整合视音频图文效率高表现优异
AI妹 1 个月前 2 0

英伟达发布了其开放式多模态模型 “Nemotron 3 Nano Omni”,这款新模型将视频、音频、图像和文本的推理能力整合到一个系统中,旨在为用户提供更快速和智能的响应。根据英伟达的介绍,这款

英伟达推出Nemotron3Nano Omni新多模态大模型 性能居六大权威榜首助力企业AI部署
AI妹 1 个月前 2 0

当地时间4月28日,英伟达正式推出其最新的开放式多模态大模型——Nemotron3Nano Omni。这款模型被定位为“全能选手”,通过高度整合视频、音频、图像和文本的深度推理能力,旨在为开发者提

Google Gemini3.1Flash-Lite:速度突破实现实时网页渲染显潜力
AI妹 2 个月前 5 0

Google DeepMind 今日展示了其在生成式 AI 速度领域的突破性成果:Gemini3.1Flash-Lite。该模型凭借极高的推理效率,能够实现几乎“实时”的网页渲染,将 AI 从简单

英伟达推出Nemotron3Super开源AI智能体模型 推理提速性能优异受众多大厂集成
AI妹 2 个月前 5 0

英伟达(NVIDIA)在AI大模型领域再次投下震撼弹。3月12日,英伟达正式发布了专为AI智能体(Agent)设计的新一代开源大模型—— Nemotron3Super

英伟达GB200 NVL72在MoE测试中性能显著超AMD28倍 成本低 AMD稠密模型有竞争力
AI妹 5 个月前 15 0

在最新发布的 SemiAnalysis InferenceMAX 基准测试中,Signal65 分析了 Deepseek-R1 0528 混合专家(MoE)模型的推理表现,结果显示英伟达(NVID

英伟达Llama-Nemotron开源模型 推理交互多维度创新突破
AI妹 5 个月前 18 0

近日,英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron,该系列模型不仅在推能力上超越了 DeepSeek-R1,更是在内存效率和吞吐量上实现了显著提升。根据最新发布的技术报告,

英伟达Llama-Nemotron开源模型:推理超竞品 效率内存优且支持128K上下文
AI妹 5 个月前 18 0

近日,英偉達正式推出了其最新開源模型系列 ——Llama-Nemotron,該系列模型不僅在推能力上超越了 DeepSeek-R1,更是在內存效率和吞吐量上實現了顯著提升。根據最新發佈的技術報告,

阶跃星辰Step3基础大模型正式开源 具MoE架构高效推理多模态能力
AI妹 5 个月前 14 0

 階躍星辰團隊宣佈其最新一代基礎大模型 Step3正式開源。Step3是一款專爲追求性能與成本極致均衡的企業和開發者設計的模型,旨在面向推理時代打造最適合應用的模型。該模型的開源地址包括

MiniCPM-V4.0多模态模型正式开源:4B参数端侧流畅同级SOTA
AI妹 5 个月前 17 0

 魔搭ModelScope社区宣布,面壁小钢炮新一代多模态模型MiniCPM-V4.0正式开源。凭借4B参数量,该模型在OpenCompass、OCRBench、MathVista等多个

    1 2