关闭导航

包含标签" Grafana"的内容

Meta开源GCM工具包 解决AI训练GPU集群硬件不稳定难题
AI妹 1 个月前 2 0

随着 AI 模型参数量迈向万亿级别,支撑其训练的 GPU 集群已成为世界上最复杂也最脆弱的机器。为了解决大规模训练中的硬件不稳定性问题,Meta AI 研究团队近日宣布开源 GCM(GPU Clu

NVIDIA NIM Operator2.0发布 新CRDs赋能K8s环境AI微服务安全高效管理
AI妹 3 个月前 16 0

NVIDIA宣布推出NIM Operator2.0,专为Kubernetes环境设计,旨在简化NIM和NeMo微服务的部署、扩展与管理。据AIbase了解,新版本引入了定制器(Customizer