基准测试 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签" 基准测试"的内容

OpenAI发布新系统监控o3/o4-mini 阻止生化兵器相关威胁

OpenAI发布新系统监控o3/o4-mini 阻止生化兵器相关威胁

AI妹 5 个月前 20 0

OpenAIは最近、最新のAI推論モデルo3とo4-miniを監視し、生物・化学兵器に関する脅威に関連するプロンプトを阻止するための新システムを発表しました。このシステムの目的は、有害な攻撃を扇動

o3模型安全推理监控系统透明度有害提示阻止生物化学兵器威胁

查看详情

AZR零数据强化自博弈训练显著提升编程数学能力开辟AI自进化新路径

AZR零数据强化自博弈训练显著提升编程数学能力开辟AI自进化新路径

AI妹 5 个月前 21 0

一项名为Absolute Zero Reasoner（AZR）的创新项目近日引发广泛关注。该项目通过一种全新的“绝对零点”训练范式，让大型语言模型(LLM)能够自主提出问题、编写代码、运行验证，并

math LeapLabTHU/Absolute-Zero-Reasoner RLVR GPU配置高显存GPU配置

查看详情

Anthropic因违规撤销OpenAI Claude访问保留安全评估合作凸显AI竞争与合作矛盾

Anthropic因违规撤销OpenAI Claude访问保留安全评估合作凸显AI竞争与合作矛盾

AI妹 5 个月前 15 0

据《连线》杂志报道，AI公司Anthropic已经撤销了OpenAI对其Claude系列AI模型的访问权限，这一决定凸显了人工智能领域竞争对手之间日益紧张的关系。根据知情人士透露，OpenAI

技术优势撤销访问权限 AI行业竞争技术护城河对比测试

查看详情

Anthropic撤销OpenAI对Claude的访问权折射AI行业竞合矛盾

Anthropic撤销OpenAI对Claude的访问权折射AI行业竞合矛盾

AI妹 5 个月前 20 0

據《連線》雜誌報道，AI公司Anthropic已經撤銷了OpenAI對其Claude系列AI模型的訪問權限，這一決定凸顯了人工智能領域競爭對手之間日益緊張的關係。根據知情人士透露，OpenAI

Anthropic 访问权限撤销 AI安全评估基准测试技术护城河

查看详情

GPT-5登陆GitHub Copilot公开预览编程辅助迎来革命性升级

GPT-5登陆GitHub Copilot公开预览编程辅助迎来革命性升级

AI妹 5 个月前 15 0

AIBase消息，2025年8月7日，OpenAI宣佈其最新旗艦模型GPT-5正式在GitHub Copilot中開啓公開預覽，這標誌着AI編程輔助工具迎來革命性升級。此次集成緊隨GPT-5向

民主化承诺 Google Cloud工具链代码理解安全性技术变革拥抱生态系统整合

查看详情

硅云平台上线月球开源MoE模型Kimi K2 性能优异支持128K上下文获好评

硅云平台上线月球开源MoE模型Kimi K2 性能优异支持128K上下文获好评

AI妹 5 个月前 17 0

Recently, the SiliconCloud platform officially launched the MoE model Kimi K2, an open-source mode

视觉理解能力编码能力 Moonshot AI 128K上下文长度 1T参数

查看详情

新研究质疑阿里Qwen2.5数学高分：或因记忆训练数据而非真推理

新研究质疑阿里Qwen2.5数学高分：或因记忆训练数据而非真推理

AI妹 5 个月前 21 0

According to foreign media reports, a new study has raised doubts about the high math scores of Al

基准测试规则 Meta Llama4 Alibaba MATH500 Qwen2.5-Math-7B

查看详情

Google Gemini 2.5 Flash-Lite正式GA：快速经济支持百万token上下文

Google Gemini 2.5 Flash-Lite正式GA：快速经济支持百万token上下文

AI妹 5 个月前 19 0

Recently, Google officially announced that its latest Gemini 2.5 Flash-Lite model has entered the

Google Gemini 2.5 Flash-Lite 100万tokens上下文窗口开发者适配 GA阶段音频输入降价40%

查看详情

NVIDIA ToolOrchestra：Orchestrator-8B优化工具选择效率与准确性双提升

NVIDIA ToolOrchestra：Orchestrator-8B优化工具选择效率与准确性双提升

AI妹 6 个月前 23 0

NVIDIA 最近推出了一种新方法 ——ToolOrchestra，旨在提升 AI 系统选择合适模型和工具的能力，避免传统的单一大型模型依赖。该方法通过训练一个名为 Orchestrator-8B

Qwen3-8B 效率奖励资源利用任务处理效率基准测试

查看详情



资讯姬

文章数量13547

总阅读量239.718k

总评论量0

会员数量2

本站由emlog驱动