长文本处理 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"长文本处理"的内容

Sakana AI发布T2L/D2L技术破解大模型长文本内存焦虑且具备跨模态能力

Sakana AI发布T2L/D2L技术破解大模型长文本内存焦虑且具备跨模态能力

AI妹 3 个月前 7 0

大模型在处理长文本时“内存焦虑”有望成为历史。近日，总部位于东京的AI初创公司Sakana AI发布了两项突破性技术:Text-to-LoRA （T2L）和 Doc-to-LoRA （D2L）。

长文本处理 Text-to-LoRA（T2L）超网络架构大模型 LoRA插件

查看详情

月之暗面获7亿美元融资估值百亿 K2.5收入超去年全年刷新纪录

月之暗面获7亿美元融资估值百亿 K2.5收入超去年全年刷新纪录

AI妹 3 个月前 6 0

中国大模型领域的“独角兽”纪录再次被刷新。2026年2月25日，据企查查援引腾讯科技消息，Kimi 的母公司北京月之暗面科技有限公司

腾讯科技 Kimi 商业准巨头腾讯 K2.5模型

查看详情

月之暗面Kimi K2.5吸金猛 20天收入超去年全年海外用户助力估值破百亿

月之暗面Kimi K2.5吸金猛 20天收入超去年全年海外用户助力估值破百亿

AI妹 3 个月前 6 0

国产大模型“独角兽”的赚钱速度再次刷新了行业认知。2026年2月24日，据 OSCHINA 报道，月之暗面（Moonshot AI）

混合专家架构 12亿美元融资长文本处理 API调用量国产大模型

查看详情

DeepSeek Engram模块：高效存储静态知识，提升LLM性能与长文本处理能力

DeepSeek Engram模块：高效存储静态知识，提升LLM性能与长文本处理能力

AI妹 4 个月前 24 0

传统的 Transformer 模型在处理重复性知识时往往显得有些“浪费”，每次遇到相同的模式都需要重新计算，这不仅消耗深度也浪费了计算资源。为了打破这一瓶颈，DeepSeek 的研究团队近日推出

混合专家模型 O(1)哈希查找 Deepseek GSM8K Engram-27B

查看详情

OpenAI发布GPT-4.1系列模型性能超GPT-4o成本降效率提升

OpenAI发布GPT-4.1系列模型性能超GPT-4o成本降效率提升

AI妹 5 个月前 25 0

4月15日，OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型，涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。该系列在编程能力、指令理解及长文本

Video-MME 编程能力指令理解法律领域 Gpt-4.1

查看详情

ACL2025最佳论文：DeepSeek等提出NSA机制长文本处理提速11倍

ACL2025最佳论文：DeepSeek等提出NSA机制长文本处理提速11倍

AI妹 5 个月前 17 0

在剛剛結束的 ACL2025頒獎典禮上，由 DeepSeek 的梁文鋒博士作爲通訊作者，與北京大學等機構聯合發表的研究論文榮獲最佳論文獎。這次會議規模空前，投稿數量幾乎翻倍，達到了8360篇，競爭

100万tokens上下文长度北京大学 27B参数模型选择性注意力压缩注意力

查看详情

DeepSeek梁文锋团队获ACL2025最佳论文 NSA机制让长文本处理提速11倍

DeepSeek梁文锋团队获ACL2025最佳论文 NSA机制让长文本处理提速11倍

AI妹 5 个月前 17 0

在刚刚结束的 ACL2025颁奖典礼上，由 DeepSeek 的梁文锋博士作为通讯作者，与北京大学等机构联合发表的研究论文荣获最佳论文奖。这次会议规模空前，投稿数量几乎翻倍，达到了8360篇，竞争

梁文锋动态分层稀疏策略前向传播代码理解反向传播

查看详情

OpenAI Mac客户端现GPT-5-Auto/Reasoning模型或已进入内部测试阶段

OpenAI Mac客户端现GPT-5-Auto/Reasoning模型或已进入内部测试阶段

AI妹 5 个月前 22 0

科技社区在 Mac 客户端中发现 OpenAI 可能正在测试的两个新模型 GPT-5-Auto 和 GPT-5-Reasoning，引发了广泛讨论。尽管 OpenAI 尚未正式发布 GPT-5相关

100万token GPT-5-Auto 上下文窗口推理能力 ChatGPT Agent应用

查看详情

腾讯混元开源0.5B-7B四小模型适配消费级设备支持多场景应用

腾讯混元开源0.5B-7B四小模型适配消费级设备支持多场景应用

AI妹 5 个月前 42 0

Tencent Hunyuan team has announced the release of four open-source small-scale models with paramet

1.8B HuggingFace 0.5B 消费级GPU 融合推理模型

查看详情

通义千问Qwen3-4B系列模型发布性能强劲端侧友好开源引开发者关注

通义千问Qwen3-4B系列模型发布性能强劲端侧友好开源引开发者关注

AI妹 5 个月前 17 0

通义千问宣布Qwen3-4B系列模型的发布。这一新模型以其小巧的体积和强大的性能，为人工智能的端侧部署带来了新的可能性。在前两周相继更新了Qwen3-235B-A22B和Qwen3-30B-A

长尾知识 Qwen3-4B-Thinking-2507 Qwen3-4B-Instruct-2507 长文本处理 AIME25测评

查看详情

2



资讯姬

文章数量13561

总阅读量242.821k

总评论量0

会员数量2

本站由emlog驱动