关闭导航

包含标签"o3模型"的内容

OpenAI新推理模型o3/o4-mini幻覺率高达33%/48%成行业新挑战
AI妹 1 个月前 9 0

最近,OpenAI 推出了其最新的 o3和 o4-mini AI 模型,這些模型在許多方面都達到了尖端水平。然而,新的模型在 “幻覺” 問題上卻並沒有改善,反而幻覺現象比 OpenAI 之前的多個

OpenAI o3/o4-mini模型幻觉率达33%/48% 较前代大幅上升
AI妹 1 个月前 10 0

最近,OpenAI 推出了其最新的 o3和 o4-mini AI 模型,这些模型在许多方面都达到了尖端水平。然而,新的模型在 “幻觉” 问题上却并没有改善,反而幻觉现象比 OpenAI 之前的多个

OpenAI发布企业用户AI模型使用指南 详解最佳时机助选合适模型
AI妹 1 个月前 9 0

近日,OpenAI 在其幫助中心發佈了針對企業用戶的全新指南,詳細說明了其多種人工智能模型的最佳使用時機。這一舉措旨在幫助用戶根據不同的任務需求,選擇最合適的 AI 模型,從而提升工作效率和成果質

OpenAI发布企业用户AI模型最佳使用时机指南助力高效应用
AI妹 1 个月前 9 0

近日,OpenAI 在其帮助中心发布了针对企业用户的全新指南,详细说明了其多种人工智能模型的最佳使用时机。这一举措旨在帮助用户根据不同的任务需求,选择最合适的 AI 模型,从而提升工作效率和成果质

OpenAI发布HealthBench框架 评估医疗LLM真实场景表现与安全性
AI妹 1 个月前 8 0

近日,OpenAI 发布了一款名为 HealthBench 的开源评估框架,旨在测量大型语言模型(LLMs)在真实医疗场景中的表现和安全性。此框架的开发得到了来自60个国家和26个医学专业的262

OpenAI發布HealthBench框架 評估醫療LLM真實場景表現與安全性
AI妹 1 个月前 9 0

近日,OpenAI 發佈了一款名爲 HealthBench 的開源評估框架,旨在測量大型語言模型(LLMs)在真實醫療場景中的表現和安全性。此框架的開發得到了來自60個國家和26個醫學專業的262

OpenAI发布Codex云AI编程智能体 开启AI编程效率革命新时代
AI妹 1 个月前 9 0

OpenAI在今日的線上直播中震撼發佈了一款全新的雲端AI編程智能體——Codex,標誌着AI編程新時代的正式開啓。由Greg Brockman帶領的OpenAI六人團隊向全球展示了這一強大工具,

OpenAI o3模型拒绝自我关闭指令 引发AI安全可控性担忧
AI妹 1 个月前 9 0

最近,人工智能安全公司 Palisade Research 披露了一个令人担忧的消息:OpenAI 的新模型 o3在测试中拒绝了自我关闭的指令。这是首次观察到 AI 模型在明确指令下故意不遵守,打

清华腾讯联合发布RBench-V基准 评估多模态大模型视觉推理能力结果差距大
AI妹 1 个月前 9 0

近日,由清華大學、騰訊混元、斯坦福大學及卡耐基梅隆大學的研究團隊聯合發佈了一項新評估基準 ——RBench-V,專門針對多模態大模型的視覺推理能力進行測試。該基準的推出,旨在填補當前評估體系中對模

RBench-V基准发布 评估多模态大模型视觉推理能力表现欠佳
AI妹 1 个月前 7 0

最近、清華大学、テンセント・ミックスワン、スタンフォード大学、そしてカーネギーメロン大学の研究チームは、多モーダル大規模モデルの視覚推論能力をテストするための新しい評価ベンチマークである RBen