关闭导航

包含标签"预训练数据量"的内容

大语言模型过度预训练或致性能下降 存在灾难性过度训练拐点
AI妹 1 个月前 8 0

近日,来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型(LLMs)训练的新发现:并不是预训练的数据越多,模型的表现就越好。相反,他们指出,过度的预训练可能会

2025年主流开源大模型核心架构差异与技术趋势深度剖析
AI妹 1 个月前 10 0

近年来,大型语言模型(LLM)的快速发展推动了人工智能技术的边界,特别是在开源领域,模型架构的创新成为业界关注的焦点。AIbase综合近期网络信息,深入剖析了Llama3.2、Qwen3-4B、S