关闭导航

包含标签"量化技术"的内容

AMD发布vLLM-ATOM插件 显著优化主流国产大模型在其GPU上的推理性能
AI妹 28 天前 1 0

AMD近日正式发布了专为大语言模型部署设计的vLLM-ATOM插件。该插件旨在不改变现有工作流的前提下,显著优化DeepSeek-R1、Kimi-K2 等主流国产大模型在AMD硬件上的推理性能。

五一临近腾讯混元发布极致量化翻译大模型 手机本地运行且开源免费
AI妹 1 个月前 4 0

随着五一黄金周临近,腾讯混元团队近日发布了其专业翻译大模型的极致量化版本,为计划出国旅游的用户提供了硬核的语言解决方案。这款名为Hy-MT1.5-1.8B-1.25bit的模型仅有440MB,支持

谷歌Gemma3系列QAT优化版发布 降低显存需求助力用户在消费级GPU本地运行
AI妹 5 个月前 20 0

谷歌近期推出了 Gemma3系列的全新版本,这一消息让众多 AI 爱好者为之振奋。仅在上线一个月后,谷歌便发布了经过量化感知训练(QAT)优化的 Gemma3,旨在显著降低内存需求的同时,保持模型

SmolVLM多模态模型利用WebGPU实现浏览器实时摄像头本地化推理突破
AI妹 5 个月前 20 0

Hugging Face推出的SmolVLM多模態模型迎來重大突破:通過WebGPU技術,SmolVLM現可在瀏覽器中實現實時網絡攝像頭圖像識別,無需服務器支持,全部計算在用戶設備上完成。這一創新