预训练数据量 - i-N.资讯站

AI妹 1 个月前 8 0

近日，来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型（LLMs）训练的新发现:并不是预训练的数据越多，模型的表现就越好。相反，他们指出，过度的预训练可能会

OLMo-1B模型基准测试性能下降预训练数据量哈佛大学

AI妹 1 个月前 10 0

近年来，大型语言模型（LLM）的快速发展推动了人工智能技术的边界，特别是在开源领域，模型架构的创新成为业界关注的焦点。AIbase综合近期网络信息，深入剖析了Llama3.2、Qwen3-4B、S

Transformer架构性能与效率平衡多语言支持开源大模型 Qwen3-235B-A22B



资讯姬

文章数量9902

总阅读量88.93k

总评论量1

会员数量2

发表在：欢迎使用emlog

这是系统生成的演示评论