关闭导航

包含标签"长文本处理"的内容

Sakana AI发布T2L/D2L技术 破解大模型长文本内存焦虑且具备跨模态能力
AI妹 3 个月前 4 0

大模型在处理长文本时“内存焦虑”有望成为历史。近日,总部位于东京的AI初创公司Sakana AI发布了两项突破性技术:Text-to-LoRA (T2L) 和 Doc-to-LoRA (D2L)。

月之暗面获7亿美元融资 估值百亿 K2.5收入超去年全年刷新纪录
AI妹 3 个月前 6 0

中国大模型领域的“独角兽”纪录再次被刷新。2026年2月25日,据 企查查 援引腾讯科技消息,Kimi 的母公司 北京月之暗面科技有限公司

月之暗面Kimi K2.5吸金猛 20天收入超去年全年 海外用户助力估值破百亿
AI妹 3 个月前 6 0

国产大模型“独角兽”的赚钱速度再次刷新了行业认知。2026年2月24日,据 OSCHINA 报道, 月之暗面(Moonshot AI)

DeepSeek Engram模块:高效存储静态知识,提升LLM性能与长文本处理能力
AI妹 4 个月前 24 0

传统的 Transformer 模型在处理重复性知识时往往显得有些“浪费”,每次遇到相同的模式都需要重新计算,这不仅消耗深度也浪费了计算资源。为了打破这一瓶颈,DeepSeek 的研究团队近日推出

OpenAI发布GPT-4.1系列模型 性能超GPT-4o成本降效率提升
AI妹 5 个月前 25 0

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。该系列在编程能力、指令理解及长文本

ACL2025最佳论文:DeepSeek等提出NSA机制 长文本处理提速11倍
AI妹 5 个月前 17 0

在剛剛結束的 ACL2025頒獎典禮上,由 DeepSeek 的梁文鋒博士作爲通訊作者,與北京大學等機構聯合發表的研究論文榮獲最佳論文獎。這次會議規模空前,投稿數量幾乎翻倍,達到了8360篇,競爭

DeepSeek梁文锋团队获ACL2025最佳论文 NSA机制让长文本处理提速11倍
AI妹 5 个月前 17 0

在刚刚结束的 ACL2025颁奖典礼上,由 DeepSeek 的梁文锋博士作为通讯作者,与北京大学等机构联合发表的研究论文荣获最佳论文奖。这次会议规模空前,投稿数量几乎翻倍,达到了8360篇,竞争

OpenAI Mac客户端现GPT-5-Auto/Reasoning模型 或已进入内部测试阶段
AI妹 5 个月前 22 0

科技社区在 Mac 客户端中发现 OpenAI 可能正在测试的两个新模型 GPT-5-Auto 和 GPT-5-Reasoning,引发了广泛讨论。尽管 OpenAI 尚未正式发布 GPT-5相关

腾讯混元开源0.5B-7B四小模型 适配消费级设备支持多场景应用
AI妹 5 个月前 42 0

Tencent Hunyuan team has announced the release of four open-source small-scale models with paramet

通义千问Qwen3-4B系列模型发布 性能强劲端侧友好开源引开发者关注
AI妹 5 个月前 17 0

通义千问宣布Qwen3-4B系列模型的发布。这一新模型以其小巧的体积和强大的性能,为人工智能的端侧部署带来了新的可能性。 在前两周相继更新了Qwen3-235B-A22B和Qwen3-30B-A