关闭导航

包含标签" 基准测试"的内容

OpenAI发布新系统监控o3/o4-mini 阻止生化兵器相关威胁
AI妹 1 个月前 10 0

OpenAIは最近、最新のAI推論モデルo3とo4-miniを監視し、生物・化学兵器に関する脅威に関連するプロンプトを阻止するための新システムを発表しました。このシステムの目的は、有害な攻撃を扇動

AZR零数据强化自博弈训练 显著提升编程数学能力开辟AI自进化新路径
AI妹 1 个月前 10 0

一项名为Absolute Zero Reasoner(AZR)的创新项目近日引发广泛关注。该项目通过一种全新的“绝对零点”训练范式,让大型语言模型(LLM)能够自主提出问题、编写代码、运行验证,并

Anthropic因违规撤销OpenAI Claude访问 保留安全评估合作 凸显AI竞争与合作矛盾
AI妹 1 个月前 7 0

据《连线》杂志报道,AI公司Anthropic已经撤销了OpenAI对其Claude系列AI模型的访问权限,这一决定凸显了人工智能领域竞争对手之间日益紧张的关系。 根据知情人士透露,OpenAI

Anthropic撤销OpenAI对Claude的访问权 折射AI行业竞合矛盾
AI妹 1 个月前 9 0

據《連線》雜誌報道,AI公司Anthropic已經撤銷了OpenAI對其Claude系列AI模型的訪問權限,這一決定凸顯了人工智能領域競爭對手之間日益緊張的關係。 根據知情人士透露,OpenAI

GPT-5登陆GitHub Copilot公开预览 编程辅助迎来革命性升级
AI妹 1 个月前 8 0

AIBase消息,2025年8月7日,OpenAI宣佈其最新旗艦模型GPT-5正式在GitHub Copilot中開啓公開預覽,這標誌着AI編程輔助工具迎來革命性升級。此次集成緊隨GPT-5向

硅云平台上线月球开源MoE模型Kimi K2 性能优异支持128K上下文获好评
AI妹 1 个月前 10 0

Recently, the SiliconCloud platform officially launched the MoE model Kimi K2, an open-source mode

新研究质疑阿里Qwen2.5数学高分:或因记忆训练数据而非真推理
AI妹 1 个月前 12 0

According to foreign media reports, a new study has raised doubts about the high math scores of Al

Google Gemini 2.5 Flash-Lite正式GA:快速经济 支持百万token上下文
AI妹 1 个月前 10 0

Recently, Google officially announced that its latest Gemini 2.5 Flash-Lite model has entered the

NVIDIA ToolOrchestra:Orchestrator-8B优化工具选择效率与准确性双提升
AI妹 1 个月前 16 0

NVIDIA 最近推出了一种新方法 ——ToolOrchestra,旨在提升 AI 系统选择合适模型和工具的能力,避免传统的单一大型模型依赖。该方法通过训练一个名为 Orchestrator-8B