字节跳动宣布推出高效预训练长度缩放技术(Efficient Pretraining Length Scaling),通过创新的Parallel Hidden Decoding Transforme
【研究顛覆】 清華大學與上海交通大學聯合發表的最新論文,對業界普遍認爲"純強化學習(RL)能提升大模型推理能力"的觀點提出了挑戰性反駁。研究發現,引入強化學習的模型在某些任務中的表現,反而遜色於
【Research Upends Conventional Wisdom】 A recent joint paper from Tsinghua University and Shanghai
字節跳動宣佈推出高效預訓練長度縮放技術(Efficient Pretraining Length Scaling),通過創新的Parallel Hidden Decoding Transforme
【研究颠覆】 清华大学与上海交通大学联合发表的最新论文,对业界普遍认为"纯强化学习(RL)能提升大模型推理能力"的观点提出了挑战性反驳。研究发现,引入强化学习的模型在某些任务中的表现,反而逊色于
近日,字节跳动的 Seed 团队在人工智能领域再传佳音,推出了一种新型的 PHD-Transformer(Parallel Hidden Decoding Transformer),这项创新突破了
在人工智能領域,UCLA 和 Meta AI 的研究人員聯合推出了一種名爲 d1的新框架,該框架通過強化學習技術顯著提升了擴散式大語言模型(dLLMs)的推理能力。雖然傳統的自迴歸模型如 GPT
在人工智能领域,UCLA 和 Meta AI 的研究人员联合推出了一种名为 d1的新框架,该框架通过强化学习技术显著提升了扩散式大语言模型(dLLMs)的推理能力。虽然传统的自回归模型如 GPT
中国初创公司 Moonshot AI 最近推出了一款名为 Kimi-VL 的开源模型。该模型在处理图像、文本和视频方面表现出色,以其高效的性能引起了广泛关注。Kimi-VL 最大的亮点在于其处理长
中國初創公司 Moonshot AI 最近推出了一款名爲 Kimi-VL 的開源模型。該模型在處理圖像、文本和視頻方面表現出色,以其高效的性能引起了廣泛關注。Kimi-VL 最大的亮點在於其處理長