关闭导航

包含标签"OLMo-1B"的内容

新研究揭示大语言模型过度预训练致灾难性性能下降需适度训练调整
AI妹 1 个月前 8 0

近日,來自卡內基梅隆大學、斯坦福大學、哈佛大學和普林斯頓大學的研究人員揭示了一個關於大語言模型(LLMs)訓練的新發現:並不是預訓練的數據越多,模型的表現就越好。相反,他們指出,過度的預訓練可能會