量化技术 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"量化技术"的内容

AMD发布vLLM-ATOM插件显著优化主流国产大模型在其GPU上的推理性能

AMD发布vLLM-ATOM插件显著优化主流国产大模型在其GPU上的推理性能

AI妹 28 天前 1 0

AMD近日正式发布了专为大语言模型部署设计的vLLM-ATOM插件。该插件旨在不改变现有工作流的前提下，显著优化DeepSeek-R1、Kimi-K2 等主流国产大模型在AMD硬件上的推理性能。

Instinct MI350 vLLM-ATOM插件 Qwen3 vLLM推理框架大语言模型部署

查看详情

五一临近腾讯混元发布极致量化翻译大模型手机本地运行且开源免费

五一临近腾讯混元发布极致量化翻译大模型手机本地运行且开源免费

AI妹 1 个月前 4 0

随着五一黄金周临近，腾讯混元团队近日发布了其专业翻译大模型的极致量化版本，为计划出国旅游的用户提供了硬核的语言解决方案。这款名为Hy-MT1.5-1.8B-1.25bit的模型仅有440MB，支持

翻译大模型 HuggingFace 腾讯混元团队 33种语言隐私安全

查看详情

谷歌Gemma3系列QAT优化版发布降低显存需求助力用户在消费级GPU本地运行

谷歌Gemma3系列QAT优化版发布降低显存需求助力用户在消费级GPU本地运行

AI妹 5 个月前 20 0

谷歌近期推出了 Gemma3系列的全新版本，这一消息让众多 AI 爱好者为之振奋。仅在上线一个月后，谷歌便发布了经过量化感知训练（QAT）优化的 Gemma3，旨在显著降低内存需求的同时，保持模型

谷歌 NVIDIA RTX3070 Gemma3 27B模型 Gemma3 开发者工具

查看详情

SmolVLM多模态模型利用WebGPU实现浏览器实时摄像头本地化推理突破

SmolVLM多模态模型利用WebGPU实现浏览器实时摄像头本地化推理突破

AI妹 5 个月前 20 0

Hugging Face推出的SmolVLM多模態模型迎來重大突破:通過WebGPU技術，SmolVLM現可在瀏覽器中實現實時網絡攝像頭圖像識別，無需服務器支持，全部計算在用戶設備上完成。這一創新

AI开源生态领导零云端传输 AI效率革命视觉问答 AI低延迟推理

查看详情



资讯姬

文章数量13527

总阅读量229.167k

总评论量0

会员数量2

本站由emlog驱动