关闭导航

包含标签"预训练"的内容

Liquid AI发布LFM2.5小型多模态模型家族 赋能边缘高效智能应用
AI妹 12 天前 7 0

Liquid AI 最近推出了 LFM2.5,这是一个新一代的小型基础模型家族,基于 LFM2架构,专注于边缘设备和本地部署。该模型家族包括 LFM2.5-1.2B-Base 和 LFM2.5-1

腾讯混元开源HY-Motion1.0 十亿参数文本到3D动作生成大模型
AI妹 19 天前 10 0

2025年12月30日,腾讯混元团队重磅开源HY-Motion1.0(Hunyuan-Motion-1.0),一款十亿参数级文本到3D动作生成大模型。该模型基于Diffusion Transfor

字节跳动Seedream3.0文生图模型发布 技术突破显著已多平台开放应用
AI妹 1 个月前 8 0

字节跳动Seed团队正式发布了Seedream3.0文生图模型的技术报告。这一模型在性能上实现了重大提升,是一个原生高分辨率、支持中英双语的图像生成基础模型,在分辨率、生图结构准确性等多方面取得突

微软发布BitNet b1.58-2B-4T 低精度高効率20亿参数模型
AI妹 1 个月前 9 0

先日、マイクロソフトの研究チームは、BitNet b1.582B4Tというオープンソースの大規模言語モデルを発表しました。このモデルは20億のパラメータを持ち、独自の1.58ビット低精度アーキテク

通义千问团队推出Qwen3系列模型 开源多版本MoE及Dense模型赋能开发者
AI妹 1 个月前 9 0

通义千问团队宣布推出Qwen3,这是Qwen系列大型语言模型的最新成员。Qwen3系列模型在代码、数学和通用能力等基准测试中表现出色,与DeepSeek-R1、o1、o3-mini、Grok-3和

小米发布首个针对推理的开源大模型MiMo 性能超同类全系列开源
AI妹 1 个月前 7 0

全球知名科技公司小米正式发布其首个针对推理(Reasoning)而生的大型开源模型 ——Xiaomi MiMo。该模型旨在解决当前预训练模型在推理能力上的瓶颈,探索如何更有效地激发模型的推理潜能。

英伟达Llama-Nemotron开源模型 推理交互多维度创新突破
AI妹 1 个月前 10 0

近日,英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron,该系列模型不仅在推能力上超越了 DeepSeek-R1,更是在内存效率和吞吐量上实现了显著提升。根据最新发布的技术报告,

英伟达Llama-Nemotron开源模型:推理超竞品 效率内存优且支持128K上下文
AI妹 1 个月前 8 0

近日,英偉達正式推出了其最新開源模型系列 ——Llama-Nemotron,該系列模型不僅在推能力上超越了 DeepSeek-R1,更是在內存效率和吞吐量上實現了顯著提升。根據最新發佈的技術報告,

五校联合发布综述 聚焦提升大语言模型逻辑推理能力及路径
AI妹 1 个月前 9 0

在當前人工智能領域,大語言模型(LLMs)取得了顯著成就,但其邏輯推理能力依然顯得不足。爲了提升這一能力,來自北京大學、清華大學、阿姆斯特丹大學、卡內基梅隆大學以及阿布扎比的 MBZUAI 等五所

北大清华等五校联合发布综述 聚焦提升大模型逻辑推理能力的策略
AI妹 1 个月前 9 0

在当前人工智能领域,大语言模型(LLMs)取得了显著成就,但其逻辑推理能力依然显得不足。为了提升这一能力,来自北京大学、清华大学、阿姆斯特丹大学、卡内基梅隆大学以及阿布扎比的 MBZUAI 等五所

    1 2