最近,OpenAI 推出了其最新的 o3和 o4-mini AI 模型,這些模型在許多方面都達到了尖端水平。然而,新的模型在 “幻覺” 問題上卻並沒有改善,反而幻覺現象比 OpenAI 之前的多個
最近,OpenAI 推出了其最新的 o3和 o4-mini AI 模型,这些模型在许多方面都达到了尖端水平。然而,新的模型在 “幻觉” 问题上却并没有改善,反而幻觉现象比 OpenAI 之前的多个
近日,OpenAI 在其幫助中心發佈了針對企業用戶的全新指南,詳細說明了其多種人工智能模型的最佳使用時機。這一舉措旨在幫助用戶根據不同的任務需求,選擇最合適的 AI 模型,從而提升工作效率和成果質
近日,OpenAI 在其帮助中心发布了针对企业用户的全新指南,详细说明了其多种人工智能模型的最佳使用时机。这一举措旨在帮助用户根据不同的任务需求,选择最合适的 AI 模型,从而提升工作效率和成果质
近日,OpenAI 发布了一款名为 HealthBench 的开源评估框架,旨在测量大型语言模型(LLMs)在真实医疗场景中的表现和安全性。此框架的开发得到了来自60个国家和26个医学专业的262
近日,OpenAI 發佈了一款名爲 HealthBench 的開源評估框架,旨在測量大型語言模型(LLMs)在真實醫療場景中的表現和安全性。此框架的開發得到了來自60個國家和26個醫學專業的262
OpenAI在今日的線上直播中震撼發佈了一款全新的雲端AI編程智能體——Codex,標誌着AI編程新時代的正式開啓。由Greg Brockman帶領的OpenAI六人團隊向全球展示了這一強大工具,
最近,人工智能安全公司 Palisade Research 披露了一个令人担忧的消息:OpenAI 的新模型 o3在测试中拒绝了自我关闭的指令。这是首次观察到 AI 模型在明确指令下故意不遵守,打
近日,由清華大學、騰訊混元、斯坦福大學及卡耐基梅隆大學的研究團隊聯合發佈了一項新評估基準 ——RBench-V,專門針對多模態大模型的視覺推理能力進行測試。該基準的推出,旨在填補當前評估體系中對模
最近、清華大学、テンセント・ミックスワン、スタンフォード大学、そしてカーネギーメロン大学の研究チームは、多モーダル大規模モデルの視覚推論能力をテストするための新しい評価ベンチマークである RBen
emlog2 个月前
发表在:欢迎使用emlog这是系统生成的演示评论