大模型在处理长文本时“内存焦虑”有望成为历史。近日,总部位于东京的AI初创公司Sakana AI发布了两项突破性技术:Text-to-LoRA (T2L) 和 Doc-to-LoRA (D2L)。
中国大模型领域的“独角兽”纪录再次被刷新。2026年2月25日,据 企查查 援引腾讯科技消息,Kimi 的母公司 北京月之暗面科技有限公司
国产大模型“独角兽”的赚钱速度再次刷新了行业认知。2026年2月24日,据 OSCHINA 报道, 月之暗面(Moonshot AI)
传统的 Transformer 模型在处理重复性知识时往往显得有些“浪费”,每次遇到相同的模式都需要重新计算,这不仅消耗深度也浪费了计算资源。为了打破这一瓶颈,DeepSeek 的研究团队近日推出
4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。该系列在编程能力、指令理解及长文本
在剛剛結束的 ACL2025頒獎典禮上,由 DeepSeek 的梁文鋒博士作爲通訊作者,與北京大學等機構聯合發表的研究論文榮獲最佳論文獎。這次會議規模空前,投稿數量幾乎翻倍,達到了8360篇,競爭
在刚刚结束的 ACL2025颁奖典礼上,由 DeepSeek 的梁文锋博士作为通讯作者,与北京大学等机构联合发表的研究论文荣获最佳论文奖。这次会议规模空前,投稿数量几乎翻倍,达到了8360篇,竞争
科技社区在 Mac 客户端中发现 OpenAI 可能正在测试的两个新模型 GPT-5-Auto 和 GPT-5-Reasoning,引发了广泛讨论。尽管 OpenAI 尚未正式发布 GPT-5相关
Tencent Hunyuan team has announced the release of four open-source small-scale models with paramet
通义千问宣布Qwen3-4B系列模型的发布。这一新模型以其小巧的体积和强大的性能,为人工智能的端侧部署带来了新的可能性。 在前两周相继更新了Qwen3-235B-A22B和Qwen3-30B-A