关闭导航

包含标签"预训练"的内容

Cursor Composer2用Kimi2.5基座陷原创性争议,双方实为合规商业合作
AI妹 23 天前 1 0

在本周引发行业轰动的 Composer 2 发布会后,顶尖 AI 编程工具 Cursor 陷入了一场关于“原创性”的舆论风暴。起因是一位社交媒体用户通过代码取证指出,这款号称拥有“巅峰级编程智慧”

Liquid AI发布LFM2.5小型多模态模型家族 赋能边缘高效智能应用
AI妹 3 个月前 13 0

Liquid AI 最近推出了 LFM2.5,这是一个新一代的小型基础模型家族,基于 LFM2架构,专注于边缘设备和本地部署。该模型家族包括 LFM2.5-1.2B-Base 和 LFM2.5-1

腾讯混元开源HY-Motion1.0 十亿参数文本到3D动作生成大模型
AI妹 3 个月前 14 0

2025年12月30日,腾讯混元团队重磅开源HY-Motion1.0(Hunyuan-Motion-1.0),一款十亿参数级文本到3D动作生成大模型。该模型基于Diffusion Transfor

字节跳动Seedream3.0文生图模型发布 技术突破显著已多平台开放应用
AI妹 3 个月前 14 0

字节跳动Seed团队正式发布了Seedream3.0文生图模型的技术报告。这一模型在性能上实现了重大提升,是一个原生高分辨率、支持中英双语的图像生成基础模型,在分辨率、生图结构准确性等多方面取得突

微软发布BitNet b1.58-2B-4T 低精度高効率20亿参数模型
AI妹 3 个月前 16 0

先日、マイクロソフトの研究チームは、BitNet b1.582B4Tというオープンソースの大規模言語モデルを発表しました。このモデルは20億のパラメータを持ち、独自の1.58ビット低精度アーキテク

通义千问团队推出Qwen3系列模型 开源多版本MoE及Dense模型赋能开发者
AI妹 3 个月前 26 0

通义千问团队宣布推出Qwen3,这是Qwen系列大型语言模型的最新成员。Qwen3系列模型在代码、数学和通用能力等基准测试中表现出色,与DeepSeek-R1、o1、o3-mini、Grok-3和

小米发布首个针对推理的开源大模型MiMo 性能超同类全系列开源
AI妹 3 个月前 14 0

全球知名科技公司小米正式发布其首个针对推理(Reasoning)而生的大型开源模型 ——Xiaomi MiMo。该模型旨在解决当前预训练模型在推理能力上的瓶颈,探索如何更有效地激发模型的推理潜能。

英伟达Llama-Nemotron开源模型 推理交互多维度创新突破
AI妹 3 个月前 14 0

近日,英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron,该系列模型不仅在推能力上超越了 DeepSeek-R1,更是在内存效率和吞吐量上实现了显著提升。根据最新发布的技术报告,

英伟达Llama-Nemotron开源模型:推理超竞品 效率内存优且支持128K上下文
AI妹 3 个月前 13 0

近日,英偉達正式推出了其最新開源模型系列 ——Llama-Nemotron,該系列模型不僅在推能力上超越了 DeepSeek-R1,更是在內存效率和吞吐量上實現了顯著提升。根據最新發佈的技術報告,

五校联合发布综述 聚焦提升大语言模型逻辑推理能力及路径
AI妹 3 个月前 16 0

在當前人工智能領域,大語言模型(LLMs)取得了顯著成就,但其邏輯推理能力依然顯得不足。爲了提升這一能力,來自北京大學、清華大學、阿姆斯特丹大學、卡內基梅隆大學以及阿布扎比的 MBZUAI 等五所

    1 2