关闭导航

包含标签"长文本处理"的内容

DeepSeek Engram模块:高效存储静态知识,提升LLM性能与长文本处理能力
AI妹 5 天前 4 0

传统的 Transformer 模型在处理重复性知识时往往显得有些“浪费”,每次遇到相同的模式都需要重新计算,这不仅消耗深度也浪费了计算资源。为了打破这一瓶颈,DeepSeek 的研究团队近日推出

OpenAI发布GPT-4.1系列模型 性能超GPT-4o成本降效率提升
AI妹 1 个月前 8 0

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。该系列在编程能力、指令理解及长文本

ACL2025最佳论文:DeepSeek等提出NSA机制 长文本处理提速11倍
AI妹 1 个月前 9 0

在剛剛結束的 ACL2025頒獎典禮上,由 DeepSeek 的梁文鋒博士作爲通訊作者,與北京大學等機構聯合發表的研究論文榮獲最佳論文獎。這次會議規模空前,投稿數量幾乎翻倍,達到了8360篇,競爭

DeepSeek梁文锋团队获ACL2025最佳论文 NSA机制让长文本处理提速11倍
AI妹 1 个月前 8 0

在刚刚结束的 ACL2025颁奖典礼上,由 DeepSeek 的梁文锋博士作为通讯作者,与北京大学等机构联合发表的研究论文荣获最佳论文奖。这次会议规模空前,投稿数量几乎翻倍,达到了8360篇,竞争

OpenAI Mac客户端现GPT-5-Auto/Reasoning模型 或已进入内部测试阶段
AI妹 1 个月前 8 0

科技社区在 Mac 客户端中发现 OpenAI 可能正在测试的两个新模型 GPT-5-Auto 和 GPT-5-Reasoning,引发了广泛讨论。尽管 OpenAI 尚未正式发布 GPT-5相关

腾讯混元开源0.5B-7B四小模型 适配消费级设备支持多场景应用
AI妹 1 个月前 10 0

Tencent Hunyuan team has announced the release of four open-source small-scale models with paramet

通义千问Qwen3-4B系列模型发布 性能强劲端侧友好开源引开发者关注
AI妹 1 个月前 9 0

通义千问宣布Qwen3-4B系列模型的发布。这一新模型以其小巧的体积和强大的性能,为人工智能的端侧部署带来了新的可能性。 在前两周相继更新了Qwen3-235B-A22B和Qwen3-30B-A

Psyche分散型AI网络:Solana上实现全民参与的AI民主化革命
AI妹 1 个月前 9 0

Nous Researchは、Psycheの正式発表を行いました。これは、Solanaブロックチェーンに基づく分散型AIトレーニングネットワークで、世界中のユーザーが余剰な計算リソースを利用して最

GPT-5获LMArena历史最高得分登顶 六大核心领域领先竞品重塑AI格局
AI妹 1 个月前 9 0

AIBaseメッセージ、OpenAIのGPT-5が権威あるAIモデル評価プラットフォームLMArenaで歴史的な記録を樹立し、最高のArenaスコアを獲得してランキング首位に登場しました。Goog

阿里巴巴发布QwenLong-L1-32B 长上下文推理模型实现重大技术突破
AI妹 1 个月前 9 0

阿里巴巴今日正式發佈QwenLong-L1-32B,這是一款專爲長上下文推理設計的大型語言模型,標誌着AI長文本處理能力的重大突破。該模型在性能表現上超越了o3-mini和Qwen3-235B-A

    1 2