传统的 Transformer 模型在处理重复性知识时往往显得有些“浪费”,每次遇到相同的模式都需要重新计算,这不仅消耗深度也浪费了计算资源。为了打破这一瓶颈,DeepSeek 的研究团队近日推出
4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。该系列在编程能力、指令理解及长文本
在剛剛結束的 ACL2025頒獎典禮上,由 DeepSeek 的梁文鋒博士作爲通訊作者,與北京大學等機構聯合發表的研究論文榮獲最佳論文獎。這次會議規模空前,投稿數量幾乎翻倍,達到了8360篇,競爭
在刚刚结束的 ACL2025颁奖典礼上,由 DeepSeek 的梁文锋博士作为通讯作者,与北京大学等机构联合发表的研究论文荣获最佳论文奖。这次会议规模空前,投稿数量几乎翻倍,达到了8360篇,竞争
科技社区在 Mac 客户端中发现 OpenAI 可能正在测试的两个新模型 GPT-5-Auto 和 GPT-5-Reasoning,引发了广泛讨论。尽管 OpenAI 尚未正式发布 GPT-5相关
Tencent Hunyuan team has announced the release of four open-source small-scale models with paramet
通义千问宣布Qwen3-4B系列模型的发布。这一新模型以其小巧的体积和强大的性能,为人工智能的端侧部署带来了新的可能性。 在前两周相继更新了Qwen3-235B-A22B和Qwen3-30B-A
Nous Researchは、Psycheの正式発表を行いました。これは、Solanaブロックチェーンに基づく分散型AIトレーニングネットワークで、世界中のユーザーが余剰な計算リソースを利用して最
AIBaseメッセージ、OpenAIのGPT-5が権威あるAIモデル評価プラットフォームLMArenaで歴史的な記録を樹立し、最高のArenaスコアを獲得してランキング首位に登場しました。Goog
阿里巴巴今日正式發佈QwenLong-L1-32B,這是一款專爲長上下文推理設計的大型語言模型,標誌着AI長文本處理能力的重大突破。該模型在性能表現上超越了o3-mini和Qwen3-235B-A
emlog1 个月前
发表在:欢迎使用emlog这是系统生成的演示评论