关闭导航

包含标签" GPU集群"的内容

Meta开源GCM工具包 解决AI训练GPU集群硬件不稳定难题
AI妹 1 个月前 2 0

随着 AI 模型参数量迈向万亿级别,支撑其训练的 GPU 集群已成为世界上最复杂也最脆弱的机器。为了解决大规模训练中的硬件不稳定性问题,Meta AI 研究团队近日宣布开源 GCM(GPU Clu