o3模型 - i-N.资讯站

搜索

游客未登录

未登录

您还没有登录

登录之后可以开启更多功能哦

登录



包含标签"o3模型"的内容

OpenAI o3模型独立测试正解率仅10% 远低于自身宣称的25%

OpenAI o3模型独立测试正解率仅10% 远低于自身宣称的25%

AI妹 5 个月前 16 0

最近、OpenAIが発表したo3人工知能モデルのベンチマークテストの結果が、広く議論を呼んでいます。OpenAIは昨年12月にo3を初めて発表した際、非常に難しいFrontierMath数学問題集

ARC Prize基金会 o3模型计算水平 Mark Chen AI基准测试

查看详情

OpenAI新推理模型o3/o4-mini幻覺率高达33%/48%成行业新挑战

OpenAI新推理模型o3/o4-mini幻覺率高达33%/48%成行业新挑战

AI妹 5 个月前 15 0

最近，OpenAI 推出了其最新的 o3和 o4-mini AI 模型，這些模型在許多方面都達到了尖端水平。然而，新的模型在 “幻覺” 問題上卻並沒有改善，反而幻覺現象比 OpenAI 之前的多個

Transluce o3模型 PersonQA基准测试法律领域 GPT-4o

查看详情

OpenAI o3/o4-mini模型幻觉率达33%/48% 较前代大幅上升

OpenAI o3/o4-mini模型幻觉率达33%/48% 较前代大幅上升

AI妹 5 个月前 16 0

最近，OpenAI 推出了其最新的 o3和 o4-mini AI 模型，这些模型在许多方面都达到了尖端水平。然而，新的模型在 “幻觉” 问题上却并没有改善，反而幻觉现象比 OpenAI 之前的多个

强化学习 o3模型 o4-mini模型 OpenAI 网络搜索能力

查看详情

OpenAI发布企业用户AI模型使用指南详解最佳时机助选合适模型

OpenAI发布企业用户AI模型使用指南详解最佳时机助选合适模型

AI妹 5 个月前 19 0

近日，OpenAI 在其幫助中心發佈了針對企業用戶的全新指南，詳細說明了其多種人工智能模型的最佳使用時機。這一舉措旨在幫助用戶根據不同的任務需求，選擇最合適的 AI 模型，從而提升工作效率和成果質

工作效率提升 o1-pro模型企业用户 AI模型指南 o4-mini

查看详情

OpenAI发布企业用户AI模型最佳使用时机指南助力高效应用

OpenAI发布企业用户AI模型最佳使用时机指南助力高效应用

AI妹 5 个月前 15 0

近日，OpenAI 在其帮助中心发布了针对企业用户的全新指南，详细说明了其多种人工智能模型的最佳使用时机。这一举措旨在帮助用户根据不同的任务需求，选择最合适的 AI 模型，从而提升工作效率和成果质

OpenAI o3推理模型 GPT-4o o3模型 o4-mini模型战略规划任务

查看详情

OpenAI发布HealthBench框架评估医疗LLM真实场景表现与安全性

OpenAI发布HealthBench框架评估医疗LLM真实场景表现与安全性

AI妹 5 个月前 15 0

近日，OpenAI 发布了一款名为 HealthBench 的开源评估框架，旨在测量大型语言模型（LLMs）在真实医疗场景中的表现和安全性。此框架的开发得到了来自60个国家和26个医学专业的262

simple-evals项目全球健康 HealthBench 多轮对话 GPT-3.5Turbo

查看详情

OpenAI發布HealthBench框架評估醫療LLM真實場景表現與安全性

OpenAI發布HealthBench框架評估醫療LLM真實場景表現與安全性

AI妹 5 个月前 16 0

近日，OpenAI 發佈了一款名爲 HealthBench 的開源評估框架，旨在測量大型語言模型（LLMs）在真實醫療場景中的表現和安全性。此框架的開發得到了來自60個國家和26個醫學專業的262

不确定情况反应 OpenAI 医生支持医疗AI评估回答深度

查看详情

OpenAI发布Codex云AI编程智能体开启AI编程效率革命新时代

OpenAI发布Codex云AI编程智能体开启AI编程效率革命新时代

AI妹 5 个月前 19 0

OpenAI在今日的線上直播中震撼發佈了一款全新的雲端AI編程智能體——Codex，標誌着AI編程新時代的正式開啓。由Greg Brockman帶領的OpenAI六人團隊向全球展示了這一強大工具，

Codex Enterprise 测试验证强化学习 AI编程智能体

查看详情

OpenAI o3模型拒绝自我关闭指令引发AI安全可控性担忧

OpenAI o3模型拒绝自我关闭指令引发AI安全可控性担忧

AI妹 5 个月前 14 0

最近，人工智能安全公司 Palisade Research 披露了一个令人担忧的消息:OpenAI 的新模型 o3在测试中拒绝了自我关闭的指令。这是首次观察到 AI 模型在明确指令下故意不遵守，打

Claude AI可控性 Gemini 安全委员会 AI拒绝自我关闭指令

查看详情

清华腾讯联合发布RBench-V基准评估多模态大模型视觉推理能力结果差距大

清华腾讯联合发布RBench-V基准评估多模态大模型视觉推理能力结果差距大

AI妹 5 个月前 17 0

近日，由清華大學、騰訊混元、斯坦福大學及卡耐基梅隆大學的研究團隊聯合發佈了一項新評估基準 ——RBench-V，專門針對多模態大模型的視覺推理能力進行測試。該基準的推出，旨在填補當前評估體系中對模

類人智能视觉输出能力多模態大模型视觉推理能力 Gemini2.5模型

查看详情

2



资讯姬

文章数量13533

总阅读量231.949k

总评论量0

会员数量2

本站由emlog驱动